Detrás del ensayo: Anand Muralidhar detecta clics robóticos en anuncios

La confianza del cliente es una prioridad para Amazon, por lo que no hay cabida para clics fraudulentos en la publicidad de sus plataformas. Los usuarios malintencionados cada vez son más sofisticados a la hora de programar bots que suplantan a los humanos y hacen clic en los anuncios, así que Amazon Ads ha mejorado su seguridad. El modelo resultante se describe en este artículo y en un ensayo que se presentó en la Conferencia sobre Aplicaciones Innovadoras de la Inteligencia Artificial de 2023, como parte de la reunión anual de la Asociación para el Avance de la Inteligencia Artificial.
El autor principal y científico principal de Amazon Ads, Anand Muralidhar, doctor en ingeniería eléctrica y computación por la Universidad de Illinois Urbana-Champaign, nos habla sobre el artículo y su investigación actual.
¿Por qué te uniste a Amazon Ads?
La verdad es, al principio, no estaba familiarizado con el tipo de trabajo que hace Amazon Ads. En 2016, estaba terminando mi trabajo en una empresa emergente y buscaba un puesto que me permitiera trabajar en modelos de aprendizaje automático, y apareció este puesto. Me metí en esto sin tener idea de la magnitud ni la complejidad, así que fue una grata sorpresa cuando me uní al equipo.
¿En qué áreas de investigación te centras ahora?
El centro de atención de mi investigación ha evolucionado. Pasé tal vez los primeros tres cuartos de mi carrera en Amazon detectando tráfico robótico. En los últimos dos años, más o menos, he empezado a interesarme por la publicidad contextual. Esa es un área importante para Amazon Ads, ya que tratamos de entender el contenido de una página web o aplicación que un usuario está mirando y luego mostrar anuncios que coincidan con eso. Por ejemplo, si estás en una página que habla de una receta de tarta de chocolate, quiero mostrarte anuncios relacionados con la tarta de chocolate, como un molde, mantequilla, pepitas de chocolate, etc.
¿Qué es el tráfico robótico y por qué ocurre?
En Amazon.com, todos los días mostramos miles de millones de anuncios que reciben millones de clics, y cobramos a los anunciantes cada vez que alguien hace clic en un anuncio. Hay algunos elementos sin escrúpulos en la web que quieren aprovecharse de esto, y construyen robots para hacer clic en estos anuncios.
Puede haber varias razones para construir un robot que haga clic en anuncios. Digamos que quieres agotar el presupuesto publicitario de un vendedor de relojes de pulsera. Cuando alguien busca relojes en Amazon y los relojes del vendedor aparecen como anuncios, si un robot hace clic en cada uno de estos anuncios, el presupuesto publicitario del vendedor se agotará muy pronto sin que ningún humano haya visto un anuncio. Otro ejemplo de tráfico robótico es cuando un robot aumenta el posicionamiento de los anuncios de un producto mediante clics, aunque otros anuncios sean más relevantes para una búsqueda. Esto podría confundir a los sistemas de aprendizaje automático y aumentar los posicionamientos de manera inadvertida.
Las personas que crean estos robots se han vuelto muy sofisticadas y continúan mejorando y desarrollando sus algoritmos.
¿Cómo aborda este problema tu ensayo, Real-Time Detection of Robotic Traffic in Online Advertising?
En este ensayo en particular se habla sobre un modelo de aprendizaje automático para identificar este tráfico robótico: la detección de robots a nivel de segmento (SLIDR). SLIDR funciona en tiempo real y analiza cada clic que hace en Amazon.com alguien que ve un anuncio. Determina si el clic provino de un humano o de un robot y, si es de un robot, no le cobramos al anunciante.
SLIDR se implementó en 2021 y procesa decenas de millones de clics y miles de millones de impresiones cada día. Hoy en día, desplegar un modelo de aprendizaje profundo puede no parecer gran cosa porque todo el mundo lo hace. Sin embargo, cuando comenzamos esto en 2020, probablemente fue el primer modelo de este tipo que se ejecutaba a tal escala en Amazon.com, y fue todo un desafío para nosotros.
El modelo SLIDR analiza segmentos de tráfico procedentes de diferentes dispositivos, como ordenadores de escritorio, aplicaciones móviles o navegadores web en dispositivos móviles. Todo esto necesita gestionarse de manera diferente para lograr el máximo rendimiento del sistema, así que desarrollamos algunas técnicas para lograrlo. Además, con el tiempo nos dimos cuenta de que necesitábamos medidas de protección para asegurarnos de que, cuando implementamos estos sistemas en producción, nada salga mal y siempre tengamos un modo a prueba de fallos. El ensayo también incluye otros detalles técnicos sobre cómo configuramos el problema: la arquitectura del modelo, el tipo de métricas que usamos para evaluar el rendimiento, cómo funciona el modelo en diferentes segmentos de tráfico, etc.
¿Qué es lo emocionante de esta investigación y su impacto?
SLIDR permite ahorrar ingresos publicitarios que de otro modo se habrían desperdiciado.
Otra cosa importante es la escala: hay muy pocos sistemas que se puedan comparar con Amazon Ads en este aspecto. Incluso cuando la gente habla de crear modelos para big data, en realidad no ponen en marcha esos modelos a esa escala.
Esta es una de las cosas maravillosas de trabajar en Amazon Ads: trabajas con datos a una escala que es prácticamente inimaginable. Manejamos miles de millones de registros en un día, que se convierten en una cantidad enorme de datos en un mes. Así que los tipos de modelos que construimos necesitan ser sólidos, muy eficientes y estar estrechamente supervisados. Al mismo tiempo, usamos aprendizaje automático, por lo que también necesitamos garantizar el rendimiento basado en las métricas que hayamos elegido.
Todo esto lo convierte en un espacio de trabajo bastante desafiante y emocionante. Terminamos viendo muchas peculiaridades en los datos, que no verías si solo estuvieras haciendo investigación teórica o trabajando con una prueba de concepto. Solo cuando empiezas a operar cosas a esta escala, en la que incluso un pequeño cambio en el rendimiento de tu modelo puede tener un enorme impacto en los ingresos de Amazon o en el presupuesto de un cliente, es cuando la complejidad se pone de manifiesto.
Otro resultado de esta investigación fue que nos dio mucha confianza sobre cómo implementar modelos de aprendizaje profundo en un marco de producción. Antes de esto, no teníamos experiencia práctica y no teníamos claro cómo lograrlo. Ahora estamos muy cómodos ejecutando modelos de aprendizaje profundo a escala, y ese fue un salto enorme para nosotros.
¿Por qué decidió tu equipo seguir el modelo SLIDR?
Algunas de las soluciones iniciales que mi equipo desarrolló para identificar el tráfico robótico se basaban en reglas relativamente simples que se volvieron bastante complejas con el tiempo. Supervisábamos varios parámetros, como la frecuencia con la que una dirección IP o usuario específico hacia clic y cuántos clics se habían hecho en las últimas horas, los últimos minutos, los últimos segundos, y así sucesivamente.
A medida que Amazon Ads crecía, también aumentaba la escala del tráfico robótico y la complejidad de los algoritmos que utilizaban los autores de los robots. Nos dimos cuenta de que las reglas que teníamos establecidas no se estaban redimensionando para hacer frente al desafío, y calibrarlas manualmente cada año o tal vez cada trimestre era un ejercicio bastante laborioso.
Esto nos llevó a preguntarnos si deberíamos hacer una transición de reglas elaboradas manualmente a un modelo de aprendizaje automático. Esto fue un problema que había que resolver desde el principio, no solo por la escala, sino también por su naturaleza en tiempo real. Solo tenemos unos pocos milisegundos para evaluar los clics cuando ocurren. Construimos algunos modelos llamados árboles con potenciación de gradiente, que funcionaron con bastante éxito durante un par de años. Sin embargo, luego experimentamos la ola del aprendizaje profundo, que nos dio la oportunidad de llevar nuestros modelos al siguiente nivel. Estos modelos siguen evolucionando y estamos desarrollando técnicas más complejas que pueden distinguir mejor entre clics humanos y clics robóticos.
Mencionaste que te sorprendió gratamente la escala y complejidad de Amazon Ads cuando te uniste a la organización. ¿Qué más has notado?
Podrías pensar que los científicos están sentados en su rincón desarrollando modelos de aprendizaje automático y luego simplemente escriben una especificación para su implementación y se la entregan a los ingenieros que están sentados en otro lugar. Pero eso no es así. Aquí, todos estamos sentados en la misma planta, unos al lado de los otros, y eso crea un ambiente muy interesante donde podemos desarrollar ideas en conjunto con los ingenieros.
Nuestro equipo ha desarrollado marcos de trabajo que permiten a los científicos implementar un modelo en el sistema de producción con un esfuerzo mínimo. El ciclo desde la concepción de un modelo hasta su implementación en producción solía durar muchos, muchos meses, pero ahora lo hemos reducido a unas pocas semanas. Alguien puede proponer una fantástica idea nueva o un nuevo modelo de aprendizaje automático, probarlo rápidamente, lanzarlo a producción, y estará funcionando en vivo. Eso es fantástico porque permite que alguien vea el impacto de lo que ha hecho en un periodo muy corto. No creo que este tipo de oportunidad esté disponible en otros lugares, donde realmente puedas marcar la diferencia en un negocio que se mide en miles de millones de dólares.
¿Cómo estás reinventando la publicidad en tu puesto?
Los navegadores de internet siguen alejándose de las cookies de terceros, así que mi investigación ha virado hacia los anuncios contextuales. Estos anuncios identifican el tema principal, el contenido y las palabras clave más importantes de una página web, y muestran el anuncio más apropiado según esta información. Esa es nuestra responsabilidad en Amazon: asegurarnos de que los anunciantes que depositan su confianza en nosotros sigan obteniendo el mismo rendimiento que antes.
Es emocionante ver que estamos impulsando la innovación en el espacio de los anuncios contextuales gracias al uso de técnicas de IA de última generación para ofrecer la mejor experiencia tanto al anunciante como al usuario.