Por trás do artigo: Anand Muralidhar detecta cliques robóticos em publicidade

A confiança do cliente é uma prioridade para a Amazon, então não há espaço para cliques fraudulentos em publicidade em suas plataformas. À medida que os agentes maliciosos se tornaram mais sofisticados na programação de robôs para se passar por humanos clicando em anúncios, a Amazon Ads aprimorou sua segurança. O modelo resultante é descrito neste artigo e em um artigo científico que foi apresentado na Conferência de Aplicações Inovadoras de Inteligência Artificial de 2023, parte do encontro anual da Associação para o Avanço da Inteligência Artificial.
O autor principal e cientista principal da Amazon Ads, Anand Muralidhar, que possui doutorado em engenharia elétrica e computação pela Universidade de Illinois em Urbana-Champaign, fala aqui sobre o artigo e sua pesquisa atual.
Por que você entrou na Amazon Ads?
Logo no começo, para ser sincero, eu não estava familiarizado com o tipo de trabalho feito pela Amazon Ads. Em 2016, eu estava encerrando meu trabalho em uma startup e procurando uma função que me permitisse trabalhar com modelos de aprendizado de máquina, e essa oportunidade surgiu. Eu entrei nisso sem ter ideia da escala ou da complexidade, então foi uma surpresa bem-vinda quando me juntei à equipe.
Em quais áreas de pesquisa você se concentra?
Meu foco de pesquisa evoluiu. Passei talvez os primeiros três quartos da minha carreira na Amazon detectando tráfego robótico. Nos últimos anos, comecei a me interessar por publicidade contextual. Essa é uma importante área de foco para a Amazon Ads, pois tentamos entender o conteúdo de uma página da web ou aplicativo que um usuário está visualizando e, então, exibir anúncios correspondentes a isso. Então, se você estiver em uma página que fala sobre uma receita de bolo de chocolate, por exemplo, eu quero mostrar anúncios relacionados ao bolo de chocolate: talvez uma forma de bolo, manteiga, gotas de chocolate, e assim por diante.
O que é tráfego robótico, e por que isso acontece?
Todos os dias na Amazon.com, exibimos bilhões de anúncios que recebem milhões de cliques, e cobramos dos anunciantes cada vez que alguém clica em um anúncio. Existem alguns elementos inescrupulosos na internet que querem explorar isso, e eles criam robôs para clicar nesses anúncios.
Pode haver vários motivos para criar um robô para clicar em anúncios. Digamos que você queira esgotar o orçamento de publicidade de um vendedor de relógios de pulso. Quando alguém procura por relógios na Amazon e os relógios do vendedor aparecem como anúncios, se um robô clicar em cada um desses anúncios, o orçamento de publicidade do vendedor se esgotará muito rapidamente sem que nenhum ser humano jamais tenha visto um desses anúncios. Outro exemplo de tráfego robótico é quando um robô aumenta o ranking de anúncios de um produto através de cliques, mesmo quando outros anúncios são mais relevantes para uma busca. Isso poderia confundir sistemas de aprendizado de máquina e aumentar rankings inadvertidamente.
As pessoas que criam esses robôs se tornaram muito sofisticadas, e continuam melhorando e evoluindo seus algoritmos.
Como esse problema é abordado no seu artigo, Detecção em tempo real de tráfego robótico em publicidade online?
Este artigo específico fala sobre um modelo de aprendizado de máquina para identificar esse tráfego robótico: detecção de robôs no nível da fatia (SLIDR, de “slice-level detection of robots”). O SLIDR funciona em tempo real e analisa cada clique feito na Amazon.com por alguém que visualiza um anúncio. Ele determina se o clique veio de um humano ou de um robô e, se for de um robô, não cobramos do anunciante.
O SLIDR foi implementado em 2021, e processa dezenas de milhões de cliques e alguns bilhões de impressões todos os dias. Hoje em dia, talvez a implantação de um modelo de deep learning não pareça grande coisa porque todo mundo faz isso. Mas, quando começamos isso em 2020, provavelmente foi o primeiro modelo desse tipo a funcionar em tal escala na Amazon.com, e foi um grande desafio para nós.
O modelo SLIDR analisa fatias de tráfego provenientes de diferentes dispositivos, como computadores, aplicativos móveis ou web móvel. Tudo isso precisa ser tratado de forma diferente para alcançar o máximo desempenho do sistema, e desenvolvemos algumas técnicas para fazer isso. Além disso, percebemos com o tempo que precisávamos de proteções para garantir que, quando implantamos esses sistemas em produção, nada dê errado e sempre tenhamos um modo à prova de falhas. O artigo também tem alguns outros detalhes técnicos sobre como configuramos o problema: a arquitetura do modelo, os tipos de métricas que usamos para avaliar o desempenho, como o modelo funciona em diferentes segmentos de tráfego, e assim por diante.
O que há de mais empolgante nesta pesquisa e no seu impacto?
O SLIDR acaba economizando receita do anunciante que, de outra forma, teria sido desperdiçada.
Outra coisa importante é a escala: Há muito poucos sistemas que se comparam à Amazon Ads nesse aspecto. Mesmo quando as pessoas falam sobre desenvolver modelos para big data, elas não executam realmente esses modelos nessa escala.
Esta é uma das coisas maravilhosas de se trabalhar na Amazon Ads: lidamos com dados em uma escala que é praticamente inimaginável. Lidamos com bilhões de registros em um dia, e isso se torna uma quantidade enorme de dados ao longo de um mês. Então os tipos de modelos que desenvolvemos precisam ser robustos, muito eficientes e monitorados de perto. Ao mesmo tempo, usamos aprendizado de máquina, então também precisamos garantir o desempenho com base nas métricas que escolhemos.
Tudo isso faz com que seja um espaço de trabalho bastante desafiador e empolgante. Acabamos vendo muitas peculiaridades nos dados, que você não veria se estivesse apenas fazendo pesquisa teórica ou trabalhando com uma prova de conceito. Somente quando você começa a operar nessa escala, onde até mesmo uma pequena mudança no desempenho do seu modelo pode ter um enorme impacto na receita da Amazon ou no orçamento de um cliente, é que a complexidade se torna aparente.
Outro impacto desta pesquisa foi que nos deu muita confiança sobre como implantar modelos de deep learning em um ambiente de produção. Antes, não tínhamos experiência em fazer isso, e não estávamos seguros de como conseguiríamos realizá-lo. Agora estamos muito confortáveis em executar modelos de deep learning em grande escala, e isso foi um salto bastante significativo para nós.
Por que sua equipe decidiu seguir o modelo SLIDR?
Algumas das soluções iniciais que minha equipe desenvolveu para identificar tráfego robótico eram baseadas em regras relativamente simples que se tornaram bastante complexas com o tempo. Estávamos monitorando vários parâmetros, como a taxa em que um determinado endereço IP ou usuário estava fazendo cliques e quantos cliques foram feitos nas últimas horas, últimos minutos, últimos segundos, e assim por diante.
À medida que a Amazon Ads crescia, também aumentava a escala do tráfego robótico e a complexidade dos algoritmos que os perpetradores robôs estavam usando. Percebemos que as regras que tínhamos em vigor não estavam se adaptando à escala do desafio, e calibrá-las manualmente todo ano ou talvez a cada trimestre era um exercício que consumia bastante tempo.
Isso nos levou a questionar se deveríamos fazer a transição de regras manuais para um modelo de aprendizado de máquina. Isso foi um problema a ser resolvido no início, não apenas por causa da escala, mas também pela natureza em tempo real. Temos apenas alguns milissegundos para avaliar os cliques conforme eles acontecem. Desenvolvemos alguns modelos chamados árvores com impulso gradiente, que funcionaram com bastante sucesso por alguns anos. Mas então vivenciamos a onda do deep learning, que proporcionou uma oportunidade de levar nossos modelos para um novo patamar. Esses modelos continuam evoluindo, e estamos desenvolvendo técnicas mais complexas que podem distinguir ainda melhor os cliques humanos dos cliques robóticos.
Você mencionou ter ficado agradavelmente surpreso com a escala e complexidade da Amazon Ads quando chegou. O que mais você notou?
Talvez você pense que os cientistas estão sentados em seu canto desenvolvendo modelos de aprendizado de máquina e depois simplesmente escrevendo uma especificação para a sua implantação, e entregando-os para engenheiros que estão sentados em outro lugar. Mas não é esse o caso. Aqui, todos nós estamos sentados no mesmo andar, um ao lado do outro, e isso cria um ambiente muito interessante onde podemos desenvolver ideias em conjunto com os engenheiros.
Nossa equipe desenvolveu frameworks que permitem aos cientistas implantar um modelo no sistema de produção com o mínimo de esforço. O ciclo desde a concepção de um modelo até sua implantação em produção costumava durar muitos, muitos meses, mas agora nós o reduzimos para algumas semanas. Alguém pode surgir com uma ideia fantástica nova ou um novo modelo de aprendizado de máquina, testá-lo rapidamente, lançá-lo em produção, e ele estará rodando ao vivo. Isso é fantástico, porque permite que alguém veja o impacto do que fez em um período muito curto. Não acho que esse tipo de oportunidade esteja disponível em outro lugar, onde você pode realmente fazer a diferença em um negócio que é medido em bilhões de dólares.
Como você está reimaginando a publicidade em sua função?
À medida que os navegadores de internet continuam se afastando dos cookies de terceiros, minha pesquisa mudou para anúncios contextuais. Estes anúncios identificam o tópico principal, o conteúdo e as palavras-chave mais importantes de uma página da web e mostram o anúncio mais apropriado com base nessas informações. Essa é nossa responsabilidade na Amazon: garantir que os anunciantes que depositam sua confiança em nós continuem obtendo o mesmo desempenho de antes.
Estou empolgado por estarmos impulsionando a inovação no espaço de anúncios contextuais usando técnicas de IA de última geração para oferecer a melhor experiência tanto para o anunciante quanto para o usuário.