Detrás del documento: Anand Muralidhar detecta clics de robots en anuncios

La confianza del cliente es una prioridad para Amazon, por lo que no hay lugar para clics fraudulentos en publicidad en sus plataformas. Los delincuentes cibernéticos se han vuelto más sofisticados en programar bots para hacerse pasar por humanos haciendo clic en anuncios, por lo que Amazon Ads ha mejorado su seguridad. El modelo resultante se describe en este artículo y en un documento que se presentó en la Conferencia sobre Aplicaciones Innovadoras de la Inteligencia Artificial 2023, parte de la reunión anual de la Asociación para el Avance de la Inteligencia Artificial.
El autor líder y científico principal de Amazon Ads Anand Muralidhar, que tiene un doctorado en ingeniería eléctrica e informática de la Universidad de Illinois Urbana-Champaign, habla aquí sobre el documento y su investigación actual.
¿Por qué te uniste a Amazon Ads?
Para ser honesto, al principio no estaba familiarizado con el tipo de trabajo que realiza Amazon Ads. En 2016, estaba terminando mi trabajo en una startup y buscando un rol que me permitiera trabajar en modelos de aprendizaje automático, y así apareció este puesto. Me involucré sin tener idea de la escala o la complejidad, así que fue una grata sorpresa cuando me uní al equipo.
¿En qué áreas de investigación te centras?
Mi enfoque ha evolucionado. Pasé, quizás, las primeras tres cuartas partes de mi trayectoria en Amazon detectando tráfico robótico. En los últimos dos años, más o menos, empecé a investigar sobre publicidad contextual. Es un área de enfoque importante para Amazon Ads, ya que tratamos de entender el contenido de una página web o aplicación que un usuario está viendo y luego mostrar anuncios que coincidan con eso. Por ejemplo, si estás en una página que habla de una receta de pastel de chocolate, entonces lo ideal sería que vieras anuncios relacionados con pasteles de chocolate, tal vez de moldes para hornear, mantequilla, chispas de chocolate, etc.
¿Qué es el tráfico robótico y por qué sucede?
Todos los días en Amazon.com, mostramos miles de millones de anuncios que reciben millones de clics, y cobramos a los anunciantes cada vez que alguien hace clic en un anuncio. Hay algunos elementos sin escrúpulos en la web que quieren explotar esto, y crean robots para que hagan clic en estos anuncios.
Podría haber varias razones para crear un robot que haga clic en los anuncios. Imaginemos que quieres agotar el presupuesto publicitario de un vendedor de relojes de pulsera. Cuando alguien busca relojes en Amazon y los relojes del vendedor aparecen en forma de anuncios, si un robot hace clic en cada anuncio de este tipo, el presupuesto publicitario del vendedor se agotará muy pronto sin que ningún ser humano haya visto el anuncio. Otro ejemplo de tráfico robótico es cuando un robot mejora la clasificación del anuncio de un producto a través de clics, incluso si otros anuncios son más relevantes para una consulta de búsqueda. Esto podría confundir a los sistemas de aprendizaje automático e impulsar inadvertidamente las clasificaciones.
Las personas que crean estos robots se han vuelto muy sofisticadas, y siguen mejorando y evolucionando los algoritmos.
¿De qué forma tu documento, Real-Time Detection of Robotic Traffic in Online Advertising (Detección de tráfico robótico en tiempo real en la publicidad online), aborda este problema?
Este documento en particular habla de un modelo de aprendizaje automático para identificar dicho tráfico robótico: la detección de robots a nivel de segmento (SLIDR). El modelo SLIDR se ejecuta en tiempo real y analiza cada clic que hace alguien que ve un anuncio en Amazon.com. Determina si el clic proviene de un ser humano o de un robot y, si es de un robot, no le cobramos al anunciante.
SLIDR se implementó en 2021 y procesa decenas de millones de clics y algunos miles de millones de impresiones todos los días. Hoy en día, implementar un modelo de aprendizaje profundo podría no parecer gran cosa, porque todo el mundo lo hace. Pero cuando comenzamos este proyecto en 2020, probablemente fue el primer modelo de este tipo que se ejecutaba a esta escala en Amazon.com, y fue todo un desafío para nosotros.
El modelo SLIDR analiza segmentos de tráfico provenientes de diferentes dispositivos, como una computadora de escritorio, una aplicación móvil o una web móvil. Todo debe manejarse de manera diferente para lograr el máximo desempeño del sistema, y se nos ocurrieron algunas técnicas para hacerlo. Además, con el tiempo nos dimos cuenta de que necesitábamos medidas de seguridad para garantizar que cuando implementemos estos sistemas en producción, nada salga mal y siempre tengamos un modo a prueba de fallas. El documento también tiene algunos otros detalles técnicos sobre cómo configuramos el problema: la arquitectura del modelo, el tipo de estadísticas que usamos para evaluar el desempeño, cómo funciona el modelo en diferentes segmentos de tráfico, y así sucesivamente.
¿Qué tiene de emocionante esta investigación y su impacto?
El modelo SLIDR lograr ahorrar ingresos de anunciantes que, de otro modo, se habrían desperdiciado.
Otra cosa importante es la escala: Hay muy pocos sistemas que estén a la altura de Amazon Ads en este sentido. Incluso cuando se habla de construir modelos para el big data, realmente no implementan esos modelos a esa escala.
Esta es una de las cosas maravillosas de trabajar en Amazon Ad: trabajas con datos a una escala inimaginable. Administramos miles de millones de registros en un día, y esto representa una enorme cantidad de datos a lo largo de un mes. Es por eso que los tipos de modelos que construimos deben ser sólidos y muy eficientes, y deben monitorearse estrechamente. Al mismo tiempo, utilizamos el aprendizaje automático, por lo que también necesitamos garantizar el desempeño basado en cualquier estadística que hayamos elegido.
Todo esto lo convierte en un ámbito de trabajo desafiante y emocionante. Al final, vemos mucha peculiaridades en los datos, que no detectarás si solo haces investigación teórica o trabajas con una prueba de concepto. La complejidad salta a la vista solo cuando comienzas a implementar modelos a esta escala, donde incluso un pequeño movimiento en el desempeño de tu modelo puede tener un gran impacto en los ingresos de Amazon o en el presupuesto de un cliente.
Otro resultado de esta investigación fue que nos dio mucha confianza para implementar modelos de aprendizaje profundo en un marco de producción. Antes de esto, no teníamos experiencia, y no estábamos seguros de cómo lograrlo. Ahora nos sentimos a gusto implementando modelos de aprendizaje profundo a gran escala, y esto fue un salto enorme para nosotros.
¿Por qué tu equipo decidió aplicar el modelo SLIDR?
Algunas de las soluciones iniciales que mi equipo diseñó para identificar el tráfico robótico se basaban en reglas relativamente simples que se complejizaron con el tiempo. Monitoreábamos diversos parámetros, como la velocidad a la que una dirección IP o usuario en particular estaba haciendo clics, y cuántos clics se hacían en las últimas horas, los últimos minutos, los últimos segundos, etc.
A medida que Amazon Ads crecía, también lo hacía la magnitud del tráfico robótico y la complejidad de los algoritmos que utilizaban los perpetradores de robots. Nos dimos cuenta de que las reglas que teníamos establecidas no crecían a la par del desafío, y calibrarlas manualmente cada año, o incluso tal vez cada trimestre, era un ejercicio que llevaba bastante tiempo.
Esto nos llevó a preguntarnos si deberíamos pasar de reglas caseras a un modelo de aprendizaje automático. Tuvimos que resolver este problema al principio, no solo por la escala sino también por su naturaleza en tiempo real. Solo tenemos unos pocos milisegundos para evaluar los clics a medida que tienen lugar. Construimos algunos modelos llamados “árboles potenciados por gradientes”, que funcionaron con bastante éxito durante un par de años. Pero luego experimentamos la ola de aprendizaje profundo, que brindó la oportunidad de llevar nuestros modelos al siguiente nivel. Estos modelos continúan evolucionando y estamos creando técnicas más complejas capaces de distinguir aún mejor los clics humanos de los clics robóticos.
Mencionaste sentirte gratamente sorprendido por la escala y la complejidad de Amazon Ads cuando te uniste. ¿Qué más has notado?
Podrías pensar que los científicos están sentados en un rincón desarrollando modelos de aprendizaje automático y luego simplemente escriben una especificación para el despliegue y se la dan a los ingenieros que están sentados en otro lugar. Pero esto no es así. Aquí, todos estamos sentados juntos, y eso lo convierte en un ambiente muy interesante donde podemos iterar ideas paralelamente con los ingenieros.
Nuestro equipo ha construido marcos que permiten a los científicos implementar un modelo en el sistema de producción con un mínimo esfuerzo. El ciclo de crear un concepto modelo para implementarlo en producción solía abarcar muchos meses, pero ahora lo hemos reducido a unas pocas semanas. Alguien puede expresar una nueva idea fantástica o un nuevo modelo de aprendizaje automático, probarlo rápidamente y lanzarlo en producción, donde se lo pondrá a funcionar en vivo. Esto es fantástico porque permite que alguien vea el impacto de su trabajo en muy poco tiempo. No creo que haya este tipo de oportunidades en otros lugares, donde realmente puedes tener un impacto en una empresa que se mide en miles de millones de dólares.
¿Cómo estás reinventando la publicidad en tu rol?
A medida que los navegadores de Internet continúan alejándose de las cookies de terceros, mi investigación se ha movido a los anuncios contextuales. Estos anuncios identifican el tema principal, el contenido y las palabras clave principales de una página web, y muestran el anuncio más apropiado en función de esta información. Esa es nuestra responsabilidad en Amazon: asegurarnos de que los anunciantes que confían en nosotros sigan obteniendo el mismo desempeño de siempre.
Me entusiasma que estemos impulsando la innovación en el ámbito de los anuncios contextuales mediante el uso de técnicas de IA de última generación para ofrecer la mejor experiencia a anunciantes y usuarios.