Dietro le quinte: Anand Muralidhar e il rilevamento dei clic robotici sulla pubblicità

Anand

La fiducia dei clienti è una priorità per Amazon e per questo motivo non c'è spazio per clic fraudolenti sugli annunci all'interno delle sue piattaforme. Poiché i malintenzionati hanno affinato le loro tecniche per programmare bot che simulano il comportamento umano nei clic sugli annunci, Amazon Ads ha rafforzato i suoi sistemi di sicurezza. Il modello sviluppato è descritto in questo articolo e in un paper presentato alla Conference on Innovative Applications of Artificial Intelligence del 2023, parte dell'annuale meeting dell'Association for the Advancement of Artificial Intelligence.

L'autore principale dello studio, Anand Muralidhar, Principal Scientist di Amazon Ads e dottore di ricerca in ingegneria elettronica e informatica presso l'Università dell'Illinois a Urbana-Champaign, descrive in questo paper il suo lavoro e le sue ricerche attuali.

Perché hai scelto di entrare in Amazon Ads?

All'inizio, a dire il vero, non conoscevo nel dettaglio il tipo di lavoro svolto da Amazon Ads. Nel 2016 stavo chiudendo un progetto con una startup e cercavo un ruolo che mi permettesse di lavorare su modelli di apprendimento automatico. Ho trovato questa opportunità e mi ci sono lanciato senza avere un'idea chiara della portata e della complessità. Una volta entrato nel team, è stata una piacevole sorpresa.

Su quali aree di ricerca ti concentri?

Il mio focus di ricerca si è evoluto nel tempo. Per circa i primi tre quarti della mia carriera in Amazon, mi sono occupato del rilevamento del traffico generato da bot. Negli ultimi due anni, invece, ho iniziato a lavorare sulla pubblicità contestuale. Questo è un ambito chiave per Amazon Ads, perché cerchiamo di comprendere il contenuto di una pagina web o di un'app che un utente sta visualizzando in modo da mostrare annunci pertinenti. Ad esempio, se una persona sta leggendo una ricetta per una torta al cioccolato, si vorrà mostrare annunci correlati, come stampi per dolci, burro o gocce di cioccolato.

Che cos'è il traffico robotico e perché si verifica?

Ogni giorno su Amazon.com mostriamo miliardi di annunci che ricevono milioni di clic e addebitiamo agli inserzionisti un costo ogni volta che qualcuno fa clic su un annuncio. Sul web esistono soggetti senza scrupoli che cercano di sfruttare questo meccanismo programmando bot che fanno clic sugli annunci.

Le motivazioni dietro questo fenomeno possono essere diverse. Supponi di voler esaurire il budget pubblicitario di un venditore di orologi da polso. Quando qualcuno cerca orologi su Amazon e gli orologi del venditore vengono mostrati come annunci, se un bot fa clic su ciascun annuncio, il budget pubblicitario del venditore si esaurirà rapidamente senza che nessun essere umano abbia effettivamente visto l'annuncio. Un altro esempio di traffico robotico si verifica quando un bot aumenta il posizionamento di un annuncio per un prodotto tramite clic, anche se altri annunci sono più pertinenti per una determinata ricerca. Questo può confondere i sistemi di apprendimento automatico e alterare le classifiche in modo scorretto.

Negli anni, gli sviluppatori di questi bot sono diventati sempre più sofisticati, affinando continuamente i loro algoritmi.

In che modo il tuo paper, Real-Time Detection of Robotic Traffic in Online Advertising, affronta questo problema?

Questo specifico paper presenta un modello di apprendimento automatico per identificare il traffico generato da bot: SLIDR (Slice-Level Detection of Robots). SLIDR opera in tempo reale, analizzando ogni clic effettuato su un annuncio su Amazon.com da qualcuno che visualizza un annuncio. Stabilisce se il clic proviene da un essere umano o da un bot: se è un clic robotico, all'inserzionista non viene addebitato alcun costo.

Implementato nel 2021, SLIDR elabora ogni giorno decine di milioni di clic e miliardi di impressioni. Anche se oggi l'uso di un modello di deep learning potrebbe sembrare scontato, nel 2020 Amazon Ads è stata tra le prime realtà a implementarlo su larga scala su Amazon.com e questo ha rappresentato una sfida significativa.

Il modello SLIDR analizza il traffico proveniente da dispositivi diversi, come desktop, app mobili e web mobile, che richiedono approcci specifici al fine di massimizzare la performance del sistema, e abbiamo sviluppato alcune tecniche per farlo. Inoltre, nel tempo ci siamo resi conto di aver bisogno di misure di sicurezza per garantire che, quando implementiamo questi sistemi in produzione, tutto funzioni correttamente e sia sempre disponibile una modalità a prova di errore. Il paper include anche alcuni dettagli tecnici su come abbiamo impostato il problema: l'architettura del modello, il tipo di dati utilizzato per valutare la performance, il funzionamento del modello su diverse porzioni di traffico e altro ancora.

Cosa rende entusiasmante questa ricerca e qual è il suo impatto?

SLIDR consente di risparmiare una gran parte del budget dell'inserzionista, evitando sprechi.

Un altro aspetto fondamentale è la scala: esistono pochi sistemi che reggono il confronto con Amazon Ads sotto questo aspetto. Molte aziende parlano di modelli per i big data, ma poche gestiscono modelli su una scala così vasta.

Questo è uno degli aspetti straordinari del lavoro in Amazon Ads: si ha a disposizione una mole di dati su una scala che è davvero inimmaginabile. Gestiamo miliardi di record al giorno, che nel corso di un mese diventano una quantità di dati enorme. Di conseguenza, i modelli che sviluppiamo devono essere robusti, estremamente efficienti e monitorati con grande attenzione. Allo stesso tempo, poiché utilizziamo l'apprendimento automatico, dobbiamo garantire una performance in base ai dati scelti.

Tutto questo rende il nostro lavoro una sfida complessa ma anche molto stimolante. Ci troviamo spesso di fronte a peculiarità nei dati che non emergerebbero con una ricerca puramente teorica o una semplice prova di concetto. Solo operando su questa scala ci si rende conto della reale complessità del sistema: anche una minima variazione nella performance di un modello può avere un impatto significativo sui ricavi di Amazon o sul budget di un cliente.

Un altro risultato importante di questa ricerca è stato acquisire maggiore sicurezza nell'implementazione di modelli di deep learning in un ambiente di produzione. In passato, non avevamo esperienza in merito e non sapevamo esattamente come affrontarlo. Ora, invece, siamo perfettamente in grado di gestire modelli di deep learning su larga scala e questo ha rappresentato un grande passo avanti per noi.

Perché il tuo team ha deciso di sviluppare il modello SLIDR?

Alcune delle prime soluzioni sviluppate dal mio team per identificare il traffico robotico si basavano su regole relativamente semplici, che nel tempo sono diventate sempre più complesse. Monitoravamo vari parametri, come la frequenza con cui un determinato indirizzo IP o utente effettuava clic e il numero di clic registrati nelle ultime ore, minuti, secondi e così via.

Con la crescita di Amazon Ads, è aumentata anche la portata del traffico robotico e la complessità degli algoritmi utilizzati da chi li crea. Ci siamo resi conto che le regole adottate non erano più sufficienti per affrontare il problema e che aggiornarle manualmente ogni anno, o addirittura ogni trimestre, era un'attività estremamente dispendiosa in termini di tempo.

Questo ci ha portato a chiederci se fosse il momento di passare da regole manuali a un modello di apprendimento automatico. La sfida non era solo legata alla scala del problema, ma anche alla sua natura in tempo reale: avevamo solo pochi millisecondi per valutare i clic man mano che avvenivano. Abbiamo sviluppato modelli basati su alberi decisionali con gradiente potenziato che hanno funzionato con successo per un paio d'anni. Poi è arrivata la rivoluzione del deep learning, che ci ha offerto l'opportunità di portare i nostri modelli a un livello superiore. Questi modelli continuano a evolversi e stiamo sviluppando tecniche sempre più sofisticate per distinguere in modo ancora più preciso i clic umani da quelli generati dai bot.

Ti ha sorpreso la scala e la complessità di Amazon Ads quando sei entrato nel team. Cos'altro hai notato?

Si potrebbe pensare che gli scienziati lavorino isolati, sviluppando modelli di apprendimento automatico e quindi consegnando semplicemente una specifica agli ingegneri per l'implementazione. Ma non è così. Qui lavoriamo tutti fianco a fianco, nello stesso spazio, il che rende l'ambiente estremamente stimolante. Possiamo scambiare idee in tempo reale con gli ingegneri e iterare rapidamente sulle soluzioni.

Il nostro team ha sviluppato framework che consentono agli scienziati di implementare un modello nel sistema di produzione con il minimo sforzo. In passato, il processo dall'ideazione di un modello alla sua implementazione in produzione richiedeva molti mesi. Ora siamo riusciti a ridurlo a poche settimane. Se qualcuno ha un'idea brillante per un nuovo modello di apprendimento automatico, può testarla rapidamente, implementarla e vederla funzionare in produzione in tempi brevissimi. Questo è straordinario perché permette di osservare in modo diretto l'impatto del proprio lavoro in pochissimo tempo. Credo che opportunità del genere siano rare altrove, soprattutto quando si tratta di fare la differenza in un business che si misura in miliardi di dollari.

Come stai reinventando la pubblicità nel tuo ruolo?

Con l'abbandono progressivo dei cookie di terze parti da parte dei browser Internet, la mia ricerca si è spostata verso la pubblicità contestuale. Questi annunci identificano l'argomento principale, i contenuti e le parole chiave più importanti di una pagina web e mostrano l'annuncio più appropriato in base a queste informazioni. La nostra responsabilità in Amazon è garantire che gli inserzionisti che si affidano a noi continuino a ottenere le stesse performance di prima.

Sono entusiasta di vedere come stiamo innovando nel campo degli annunci contestuali, utilizzando le tecnologie di intelligenza artificiale più avanzate per offrire la migliore esperienza sia agli inserzionisti che agli utenti.