Detrás del artículo: Anand Muralidhar detecta clics robóticos en la publicidad

Anand

La confianza del cliente es una prioridad para Amazon, por lo que no hay lugar para clics fraudulentos en la publicidad de sus plataformas. A medida que los actores maliciosos se han vuelto más sofisticados en la programación de bots para suplantar a humanos que hacen clic en anuncios, Amazon Ads ha mejorado su seguridad. El modelo resultante se describe en este artículo y en un documento que fue presentado en la Conferencia sobre Aplicaciones Innovadoras de Inteligencia Artificial 2023, parte de la reunión anual de la Asociación para el Avance de la Inteligencia Artificial.

El autor principal y científico principal de Amazon Ads, Anand Muralidhar, quien tiene un doctorado en ingeniería eléctrica y computacional de la Universidad de Illinois Urbana-Champaign, habla aquí sobre el artículo y su investigación actual.

¿Por qué te uniste a Amazon Ads?

Para ser honesto, al principio no estaba familiarizado con el tipo de trabajo que hace Amazon Ads. En 2016, estaba terminando mi trabajo en una startup y buscando un puesto que me permitiera trabajar con modelos de aprendizaje automático, y apareció esta oportunidad. Me metí en esto sin tener idea de la magnitud o la complejidad, así que fue una grata sorpresa cuando me uní al equipo.

¿En qué áreas de investigación te enfocas actualmente?

Mi enfoque de investigación ha evolucionado. Pasé tal vez las primeras tres cuartas partes de mi carrera en Amazon detectando tráfico robótico. En los últimos dos años más o menos, he comenzado a estudiar la publicidad contextual. Esa es un área importante de enfoque para Amazon Ads, ya que tratamos de entender el contenido de una página web o aplicación que un usuario está viendo y luego mostrar anuncios que coincidan con eso. Entonces, si estás en una página que habla de una receta de, digamos, pastel de chocolate, quiero mostrarte anuncios relacionados con el pastel de chocolate, tal vez un molde para hornear, mantequilla, chispas de chocolate y cosas así.

¿Qué es el tráfico robótico y por qué ocurre?

Todos los días en Amazon.com, mostramos miles de millones de anuncios que reciben millones de clics, y cobramos a los anunciantes cada vez que alguien hace clic en un anuncio. Hay algunos elementos sin escrúpulos en la web que quieren aprovecharse de esto, y construyen robots para hacer clic en estos anuncios.

Podría haber varias razones para crear un robot que haga clic en anuncios. Digamos que quieres agotar el presupuesto publicitario de un vendedor de relojes de pulsera. Cuando alguien busca relojes en Amazon y los relojes del vendedor aparecen como anuncios publicitarios, si un robot hace clic en cada uno de estos anuncios, el presupuesto publicitario del vendedor se agotará muy pronto sin que ningún humano haya visto un anuncio. Otro ejemplo de tráfico robótico es cuando un robot aumenta el ranking de anuncios de un producto mediante clics, incluso cuando otros anuncios son más relevantes para una búsqueda. Esto podría confundir a los sistemas de aprendizaje automático y aumentar los rankings de manera involuntaria.

Las personas que crean estos robots se han vuelto muy sofisticadas, y siguen mejorando y desarrollando sus algoritmos.

Este artículo en particular habla sobre un modelo de aprendizaje automático para identificar dicho tráfico robótico: detección de robots a nivel de segmento (SLIDR). SLIDR funciona en tiempo real y analiza cada clic que se hace en Amazon.com por alguien que ve un anuncio. Determina si el clic provino de un humano o de un robot, y si es de un robot, no le cobramos al anunciante.

SLIDR se implementó en 2021 y procesa decenas de millones de clics y miles de millones de impresiones todos los días. Hoy en día, implementar un modelo de aprendizaje profundo puede no parecer gran cosa porque todo el mundo lo hace. Pero cuando comenzamos esto en 2020, probablemente fue el primer modelo de este tipo que se ejecutaba a tal escala en Amazon.com, y fue todo un desafío para nosotros.

El modelo SLIDR analiza segmentos de tráfico provenientes de diferentes dispositivos, como computadoras de escritorio, aplicaciones móviles o navegadores web móviles. Todo necesita manejarse de manera diferente para lograr el máximo rendimiento del sistema, y desarrollamos algunas técnicas para lograrlo. Además, con el tiempo nos dimos cuenta de que necesitábamos medidas de seguridad para asegurar que cuando implementamos estos sistemas en producción, nada salga mal y siempre tengamos un modo a prueba de fallos. El documento también tiene otros detalles técnicos sobre cómo configuramos el problema: la arquitectura del modelo, el tipo de estadísticas que usamos para evaluar el rendimiento, cómo funciona el modelo en diferentes segmentos de tráfico, y así sucesivamente.

¿Qué es lo emocionante de esta investigación?

SLIDR termina ahorrando ingresos del anunciante que de otro modo se habrían desperdiciado.

Otra cosa importante es la escala: hay muy pocos sistemas que se comparen con Amazon Ads en este aspecto. Incluso cuando la gente habla de crear modelos para big data, en realidad no ejecutan esos modelos a esa escala.

Esta es una de las cosas maravillosas de trabajar en Amazon Ads: trabajas con datos a una escala que es prácticamente inimaginable. Manejamos miles de millones de registros en un día, y se convierte en una cantidad enorme de datos en un mes. Así que los tipos de modelos que construimos necesitan ser robustos, muy eficientes y estar estrechamente monitoreados. Al mismo tiempo, usamos aprendizaje automático, así que también necesitamos garantizar el rendimiento basado en las estadísticas que hayamos elegido.

Todo esto lo convierte en un espacio de trabajo bastante desafiante y emocionante. Terminamos viendo muchas peculiaridades en los datos, las cuales no verías si solo estuvieras haciendo investigación teórica o trabajando con una prueba de concepto. Solo cuando empiezas a operar cosas a esta escala, donde incluso un pequeño cambio en el rendimiento de tu modelo puede tener un impacto enorme en los ingresos de Amazon o en el presupuesto de un cliente, es cuando la complejidad se vuelve evidente.

Otro impacto de esta investigación fue que nos dio mucha confianza sobre cómo implementar modelos de aprendizaje profundo en un marco de producción. Antes de esto, no teníamos experiencia haciéndolo y no estábamos seguros de cómo lograrlo. Ahora estamos muy cómodos ejecutando modelos de deep learning a gran escala, y eso fue un salto bastante grande para nosotros.

¿Por qué tu equipo decidió seguir el modelo SLIDR?

Algunas de las soluciones iniciales que mi equipo desarrolló para identificar el tráfico robótico se basaban en reglas relativamente simples que se volvieron bastante complejas con el tiempo. Estábamos monitoreando varios parámetros, como la frecuencia con la que una dirección IP o usuario específico hacía clics y cuántos clics se realizaron en las últimas horas, los últimos minutos, los últimos segundos, y así sucesivamente.

A medida que Amazon Ads creció, también aumentó la escala del tráfico robótico y la complejidad de los algoritmos que los perpetradores robóticos estaban utilizando. Nos dimos cuenta de que las reglas que teníamos establecidas no se estaban escalando para hacer frente al desafío, y calibrarlas manualmente cada año o tal vez cada trimestre era un ejercicio que consumía bastante tiempo.

Esto nos llevó a preguntarnos si deberíamos hacer una transición de reglas hechas a mano a un modelo de aprendizaje automático. Esto fue un problema por resolver al principio, no solo por la escala sino también por su naturaleza en tiempo real. Solo tenemos unos cuantos milisegundos para evaluar los clics cuando ocurren. Construimos algunos modelos llamados árboles de gradiente aumentado, que funcionaron con bastante éxito durante un par de años. Pero luego experimentamos la ola del aprendizaje profundo, lo cual nos brindó la oportunidad de llevar nuestros modelos al siguiente nivel. Estos modelos continúan evolucionando, y estamos desarrollando técnicas más complejas que pueden distinguir mejor entre clics humanos y clics robóticos.

Mencionaste que te sorprendió gratamente la escala y complejidad de Amazon Ads cuando te uniste. ¿Qué más has notado?

Podrías pensar que los científicos están sentados en su rincón desarrollando modelos de aprendizaje automático y luego simplemente escribiendo una especificación para el despliegue y entregándosela a los ingenieros que están sentados en otro lugar. Pero ese no es el caso. Aquí, todos estamos sentados en el mismo piso uno junto al otro, y eso crea un ambiente muy interesante donde podemos desarrollar ideas en conjunto con los ingenieros.

Nuestro equipo ha desarrollado marcos de trabajo que permiten a los científicos implementar un modelo en el sistema de producción con un esfuerzo mínimo. El ciclo desde desarrollar un concepto de modelo hasta implementarlo en producción solía durar muchos, muchos meses, pero ahora lo hemos reducido a unas pocas semanas. Alguien puede proponer una fantástica idea nueva o un nuevo modelo de aprendizaje automático, probarlo rápidamente, lanzarlo a producción, y estará funcionando en vivo. Eso es fantástico porque permite que alguien vea el impacto de lo que ha hecho en un período muy corto. No creo que ese tipo de oportunidad esté disponible en otro lugar, donde realmente puedas hacer una diferencia significativa en un negocio que se mide en miles de millones de dólares.

¿Cómo estás reinventando la publicidad en tu puesto?

A medida que los navegadores de internet continúan alejándose de las cookies de terceros, mi investigación se ha orientado hacia los anuncios contextuales. Estos anuncios identifican el tema principal, el contenido y las palabras clave más importantes de una página web y muestran el anuncio más apropiado según esta información. Esa es nuestra responsabilidad en Amazon: asegurar que los anunciantes que depositan su confianza en nosotros sigan obteniendo el mismo rendimiento que antes.

Me emociona que estemos impulsando la innovación en el espacio de anuncios contextuales mediante el uso de técnicas de IA de última generación para ofrecer la mejor experiencia tanto para el anunciante como para el usuario.