Achter de paper: Anand Muralidhar detecteert robotklikken op advertenties

Het vertrouwen van de klant is een prioriteit voor Amazon, dus er is geen ruimte voor frauduleuze klikken op advertenties op zijn platforms. Omdat kwaadwillenden steeds geraffineerder zijn geworden in het programmeren van bots om zich voor te doen als mensen die op advertenties klikken, heeft Amazon Ads zijn beveiliging verbeterd. Het resulterende model wordt beschreven in dit artikel en in een paper dat werd gepresenteerd op de conferentie over innovatieve toepassingen van kunstmatige intelligentie in 2023, onderdeel van de jaarlijkse bijeenkomst van de Association for the Advancement of Artificial Intelligence.
Anand Muralidhar, hoofdauteur en hoofdwetenschapper van Amazon Ads, die is gepromoveerd in elektrotechniek en computertechniek aan de University of Illinois Urbana-Champaign, vertelt hier over de paper en zijn huidige onderzoek.
Waarom ben je gaan werken voorAmazon Ads?
Eerlijk gezegd was ik in het begin niet bekend met het soort werk dat Amazon Ads doet. In 2016 was ik mijn werk bij een startup aan het afronden en was ik op zoek naar een rol waarin ik zou kunnen werken aan modellen voor machine learning, en deze rol kwam naar voren. Ik ben ermee begonnen zonder een idee te hebben van de omvang of de complexiteit, dus het was een welkome verrassing toen ik eenmaal bij het team kwam.
Op welke onderzoeksgebieden richt je je momenteel?
Mijn onderzoeksfocus is geëvolueerd. Ik heb misschien de eerste driekwart van mijn Amazon-carrière besteed aan het detecteren van robotverkeer. De laatste paar jaar ben ik gaan kijken naar contextueel adverteren. Dat is een belangrijk aandachtsgebied voor Amazon Ads, omdat we proberen om de inhoud van een webpagina of app die een gebruiker bekijkt te begrijpen en om vervolgens advertenties weer te geven die daarop zijn afgestemd. Dus als je op een pagina praat over een recept voor bijvoorbeeld chocoladetaart, dan wil ik je advertenties laten zien die betrekking hebben op chocoladetaart, misschien een bakvorm, boter, chocoladeschilfers, enzovoort.
Wat is robotverkeer en waarom gebeurt het?
Elke dag tonen we op Amazon.com miljarden advertenties die miljoenen klikken ontvangen, en we brengen adverteerders kosten in rekening elke keer dat iemand op een advertentie klikt. Er zijn een aantal gewetenloze elementen op het web die hier misbruik van willen maken, en ze bouwen robots om op deze advertenties te klikken.
Er kunnen verschillende redenen zijn om een robot te bouwen om op advertenties te klikken. Stel dat je het advertentiebudget van een verkoper van polshorloges wilt uitputten. Wanneer iemand op Amazon naar horloges zoekt en de horloges van de verkoper als advertenties worden weergegeven en een robot op elke advertentie klikt, raakt het advertentiebudget van de verkoper snel uitgeput en ziet niemand ooit een advertentie. Een ander voorbeeld van robotverkeer is wanneer een robot de advertentierangschikking van een product verhoogt door middel van klikken, zelfs als andere advertenties relevanter zijn voor een zoekopdracht. Dit zou machine learning-systemen in de war kunnen brengen en onbedoeld de ranglijsten verhogen.
De mensen die deze robots hebben bedacht, zijn erg geraffineerd geworden en ze blijven hun algoritmen verbeteren en ontwikkelen.
Hoe pakt uw paper, Real-Time Detection of Robotic Traffic in Online Advertising, dit probleem aan?
In deze specifieke paper wordt gesproken over een machine learning-model om dergelijk robotverkeer te identificeren: slice-level detection of robots (SLIDR). SLIDR wordt in realtime uitgevoerd en kijkt naar elke klik die op Amazon.com wordt gemaakt door iemand die een advertentie bekijkt. Het berekent of de klik van een mens of van een robot komt. Als de klik van een robot is, brengen we geen kosten in rekening voor de adverteerder.
SLIDR werd in 2021 geïmplementeerd en verwerkt elke dag tientallen miljoenen klikken en enkele miljarden impressies. Tegenwoordig klinkt het inzetten van een deep learning-model misschien niet zo belangrijk, omdat iedereen het doet. Maar toen we ermee begonnen in 2020, was dit waarschijnlijk het eerste model dat op zo'n grote schaal op Amazon.com draaide, en het was een hele uitdaging voor ons.
Het SLIDR-model kijkt naar delen van het verkeer die afkomstig zijn van verschillende apparaten, zoals een desktop, mobiele app of mobiel internet. Het moet allemaal anders worden aangepakt om maximale prestaties uit het systeem te halen, en we hebben een aantal technieken bedacht om dat te doen. Na verloop van tijd beseften we ook dat we vangrails nodig hadden om ervoor te zorgen dat wanneer we deze systemen in productie inzetten, er niets misgaat en dat we altijd een faalveilige modus hebben. De paper bevat ook enkele andere technische details over hoe we het probleem hebben opgezet: de modelarchitectuur, het soort statistieken dat we gebruiken om de prestaties te evalueren, hoe het model werkt op verschillende delen van het verkeer, enzovoort.
Wat is er spannend aan dit onderzoek en aan de impact ervan?
SLIDR bespaart uiteindelijk inkomsten voor adverteerders die anders zouden zijn verspild.
Een ander belangrijk punt is de schaal: Er zijn maar weinig systemen die in dit opzicht kunnen tippen aan Amazon Ads. Zelfs als mensen het hebben over het bouwen van modellen voor big data, gebruiken ze die modellen niet echt op die schaal.
Dit is een van de mooie dingen van werken bij Amazon Ads: je werkt met data op een schaal die nogal onvoorstelbaar is. We verwerken miljarden records op een dag, en dat wordt een enorme hoeveelheid gegevens in een maand. De soorten modellen die we bouwen, moeten dus robuust en zeer efficiënt zijn en nauwlettend in de gaten worden gehouden. Tegelijkertijd maken we gebruik van machine learning, dus we moeten ook prestaties garanderen op basis van de statistieken die we hebben gekozen.
Dit alles maakt het een vrij uitdagende en opwindende ruimte om in te werken. We zien uiteindelijk veel eigenzinnigheid in de data, wat je niet zult zien als je alleen theoretisch onderzoek doet of met een proof of concept werkt. Pas als je dingen op deze schaal gaat gebruiken, waarbij zelfs een kleine verandering in de prestaties van je model een enorme impact kan hebben op de inkomsten van Amazon of het budget van een klant, wordt de complexiteit duidelijk.
Nog een impact van dit onderzoek was dat het ons veel vertrouwen gaf in de manier waarop we deep learning-modellen in een productiekader kunnen implementeren. Daarvoor hadden we er geen ervaring mee, en we wisten niet goed hoe we het voor elkaar moesten krijgen. Nu kunnen we heel goed deep learning-modellen op grotere schaal gebruiken, en dat was een vrij grote stap voor ons.
Waarom heeft je team besloten om verder te gaan met het SLIDR-model?
Sommige van de eerste oplossingen die mijn team ontwikkelde om robotverkeer te identificeren, waren gebaseerd op relatief eenvoudige regels die in de loop der tijd behoorlijk complex werden. We hielden verschillende parameters bij, zoals de snelheid waarmee een bepaald IP-adres of een bepaalde gebruiker klikte en hoeveel klikken er zijn gemaakt in de afgelopen uren, de laatste paar minuten, de laatste paar seconden, enzovoort.
Naarmate Amazon Ads groeide, namen ook de omvang van het robotverkeer en de complexiteit van de algoritmen die robotdaders gebruikten toe. We beseften dat de regels die we hadden niet waren aangepast aan de uitdaging, en dat het een vrij tijdrovende klus was om ze elk jaar of misschien elk kwartaal handmatig te kalibreren.
Dit bracht ons bij de vraag of we moesten overstappen van handgemaakte regels naar een machine learning-model. Dit was een probleem om op te lossen in het begin, niet alleen vanwege de schaal maar ook vanwege de realtime aard. We hebben slechts een paar milliseconden om het aantal klikken te evalueren zodra ze zich voordoen. We hebben enkele modellen gebouwd, genaamd gradient-boosted trees, die een paar jaar lang behoorlijk succesvol hebben gewerkt. Maar toen ondervonden we de deep learning-golf, die een kans bood om onze modellen naar een hoger niveau te tillen. Deze modellen blijven evolueren en we ontwikkelen complexere technieken waarmee menselijke klikken nog beter kunnen worden onderscheiden van robotklikken.
Je zei dat je aangenaam verrast was door de omvang en complexiteit van Amazon Ads toen er begon te werken. Wat is je nog meer opgevallen?
Je zou kunnen denken dat wetenschappers in hun hoekje zitten om machine learning-modellen te ontwikkelen en dan gewoon een specificatie schrijven voor de implementatie en die aan ingenieurs geven die ergens anders zitten. Maar dat is niet het geval. Hier zitten we allemaal op dezelfde verdieping, vlak naast elkaar, en dat maakt het een zeer interessante omgeving waar we samen met de ingenieurs ideeën kunnen ontwikkelen.
Ons team heeft frameworks gebouwd waarmee de wetenschappers met minimale inspanning een model in het productiesysteem kunnen implementeren. De cyclus van het bedenken van een modelconcept en de implementatie ervan in productie duurde vroeger vele, vele maanden, maar nu hebben we die teruggebracht tot een paar weken. Iemand kan een fantastisch nieuw idee of een nieuw machine learning-model bedenken, het snel testen en in productie nemen, en het zal live draaien. Dat is fantastisch omdat het iemand in staat stelt de impact te zien van wat ze in een zeer korte periode hebben gedaan. Ik denk niet dat zo'n kans elders beschikbaar is, waar je echt de naald kunt zetten in een bedrijf dat wordt gemeten in miljarden dollars.
Hoe geef je adverteren opnieuw vorm in jouw functie?
Nu internetbrowsers steeds minder gebruikmaken van cookies van derden, is mijn onderzoek verschoven naar contextuele advertenties. Deze advertenties identificeren het belangrijkste onderwerp, de inhoud en de belangrijkste trefwoorden van een webpagina en tonen de meest geschikte advertentie op basis van deze informatie. Dat is onze verantwoordelijkheid bij Amazon: ervoor zorgen dat de adverteerders die ons vertrouwen, dezelfde prestaties blijven leveren als voorheen.
Ik ben verheugd dat we innovatie stimuleren op het gebied van contextuele advertenties door gebruik te maken van geavanceerde AI-technieken om zowel de adverteerder als de gebruiker de beste ervaring te bezorgen.