Bakgrund: Anand Muralidhar upptäcker robotklick på annonsering

Kundförtroende är en prioritet för Amazon. Därför finns det inget utrymme för bedrägliga annonseringsklick på deras plattformar. Amazon Ads har höjt sin säkerhet eftersom bedrägliga aktörer har blivit mer sofistikerade när det gäller att programmera bottar som utger sig för att vara människor när de klickar på annonser. Den resulterande modellen beskrivs i den här artikeln och i en studie som presenterades vid konferensen om innovativa tillämpningar av artificiell intelligens 2023, en del av årsmötet för Association for the Advancement of Artificial Intelligence.

Huvudförfattaren och Amazon Ads huvudforskare Anand Muralidhar, som har en doktorsexamen i elektronik och datateknik från University of Illinois Urbana-Champaign, talar här om studien och sin nuvarande forskning.

Varför började du på Amazon Ads?

För att vara ärlig, var jag inledningsvis inte bekant med vilken typ av arbete som Amazon Ads gör. 2016 avslutade jag mitt arbete vid ett startupföretag och letade efter en roll som skulle tillåta mig att arbeta med maskininlärningsmodeller, och då dök den här rollen upp. Jag kom in i det utan en aning om hur stort eller invecklat det var, så det var en välkommen överraskning när jag gick med i teamet.

Vilka forskningsområdenfokuserar du på?

Min forskningsinriktning har utvecklats. Jag tillbringade kanske de första tre fjärdedelarna av min karriär hos Amazon med att upptäcka robottrafik. Under de senaste åren har jag börjat titta på kontextuell annonsering. Det är en viktig inriktning för Amazon Ads, eftersom vi försöker förstå innehållet på en webbsida eller app som en användare tittar på och sedan visa matchande annonser. Om du är på en sida som beskriver ett recept på till exempel chokladkaka, så vill jag visa dig annonser med anknytning till chokladkaka: kanske en bakplåt, smör, chokladbitar och så vidare.

Vad är robottrafik och varför inträffar det?

Varje dag på Amazon.com visar vi miljarder annonser som får miljontals klick, och vi debiterar annonsörerna varje gång någon klickar på en annons. Det finns vissa korrupta element på webben som vill utnyttja detta, och de skapar robotar som klickar på dessa annonser.

Det kan finnas en mängd olika skäl till att bygga en robot för att klicka på annonser. Låt oss säga att du vill göra slut på annonsbudgeten för någon som säljer armbandsur. När någon söker efter klockor på Amazon och säljarens klockor visas som annonser, och en robot klickar på varje sådan annons, tar säljarens annonsbudget slut inom kort utan att någon människa någonsin ser en annons. Ett annat exempel på robottrafik är när en robot höjer annonsrankningen för en produkt genom klick även om andra annonser är mer relevanta för en sökfråga. Detta kan förvirra maskininlärningssystemen och oavsiktligt höja rankningarna.

Individerna som tar fram dessa robotar har blivit mycket sofistikerade, och de fortsätter att förbättra och utveckla sina algoritmer.

Hur tar din studie Real-Time Detection of Robotic Traffic in Online Advertising itu med detta problem?

I denna specifika studie nämns en maskininlärningsmodell som identifierar sådan robottrafik: segmenterad upptäckt av robotar eller SLIDR (slice-level detection of robots). SLIDR körs i realtid, och tittar på varje klick som görs på Amazon.com av någon som tittar på en annons. Den räknar ut om klicket kom från en människa eller en robot. Om det kommer från en robot debiterar vi inte annonsören.

SLIDR distribuerades 2021 och behandlar tiotals miljoner klick och några miljarder visningar varje dag. I dag kanske det inte låter som en så stor sak att föra in en djupinlärningsmodell eftersom alla gör det. Men när vi startade 2020 var det förmodligen den första modellen av detta slag som användes i en sådan skala på Amazon.com, och det var en utmaning för oss.

SLIDR-modellen tittar på trafiksegment som kommer från olika enheter, till exempel stationära datorer, mobilappar eller mobilwebb. Allt måste hanteras annorlunda för att uppnå maximal prestanda från systemet, och vi kom på några tekniker för att göra det. Dessutom insåg vi med tiden att vi behövde skyddsåtgärder som förhindrar fel och säkerställer ett felsäkert läge när vi implementerar dessa system i produktionen. Studien innehåller också några tekniska detaljer om hur vi definierar problemet: modellarkitekturen, vilken typ av nyckeltal vi använder för att utvärdera prestanda, hur modellen fungerar på olika trafiksegment, och så vidare.

Vad är spännande med denna forskning och dess inverkan?

SLIDR sparar intäkter för annonsören som annars skulle ha slösats bort.

En annan viktig sak är omfattningen: Det finns väldigt få system som matchar Amazon Ads i detta avseende. Även när folk pratar om att bygga modeller för stordata kör de egentligen inte dessa modeller i den skalan.

Detta är en av de underbara sakerna med att arbeta på Amazon Ads: Du hanterar data i en ofattbar skala. Vi hanterar miljarder poster på en dag, och det blir en enorm mängd data under en månad. De typer av modeller som vi bygger måste därför vara robusta, mycket effektiva och noggrant övervakade. Samtidigt använder vi maskininlärning, så vi måste också garantera prestanda baserat på vilka nyckeltal vi har valt.

Allt detta gör det till ett ganska utmanande och spännande område att arbeta inom. Det leder till att vi ser mycket konstigheter i våra data, vilket du inte ser om du bara gör teoretisk forskning eller arbetar med ett koncepttest. Först när du börjar köra saker i denna omfattning, där även en liten ändring i din modells prestanda kan ha en enorm inverkan på Amazons intäkter eller en kunds budget, blir komplexiteten uppenbar.

Ytterligare en effekt av denna forskning var att den gav oss stort förtroende för hur man implementerar djupinlärningsmodeller inom ramen för produktion. Innan detta hade vi ingen erfarenhet av att göra det, och vi var inte säkra på hur vi skulle klara det. Nu är vi väldigt bekväma med att köra djupinlärningsmodeller i stor skala, vilket var ett ganska stort steg för oss.

Varför beslutade ditt team att följa SLIDR-modellen?

Några av de första lösningarna som mitt team tog fram för att identifiera robottrafik baserades på relativt enkla regler som blev ganska komplexa med tiden. Vi spårade olika parametrar såsom hastigheten med vilken en viss IP-adress eller användare klickade och hur många klick som gjordes under de senaste timmarna, minuterna, sekunderna och så vidare.

I takt med att Amazon Ads växte ökade omfattningen av robottrafiken och komplexiteten i algoritmerna som robotförövarna använde. Vi insåg att reglerna vi hade på plats inte skalades för att överensstämma med utmaningen, och att kalibrera dem manuellt varje år eller kanske varje kvartal var ganska tidskrävande.

Detta fick oss att fråga om vi behövde övergå från regler skrivna för hand till en maskininlärningsmodell. Detta var ett problem att lösa i början, inte bara på grund av omfattningen utan också realtidskaraktären. Vi har bara några millisekunder för att utvärdera klick när de sker. Vi byggde modeller som kallas gradientförstärkta träd, som kördes ganska framgångsrikt i ett par år. Efter det gick vi dock igenom djupinlärningsvågen, vilket gav en möjlighet att ta våra modeller till nästa nivå. Dessa modeller fortsätter att utvecklas, och vi bygger mer komplexa tekniker som är ännu bättre på att skilja mänskliga klick från robotklick.

Du nämnde att du blev positivt överraskad över omfattningen och komplexiteten hos Amazon Ads när du gick med. Vad mer har du lagt märke till?

Du kanske tror att en forskare sitter i sitt hörn och utvecklar maskininlärningsmodeller och sedan bara skriver en specifikation för distribution och ger den till ingenjörer som sitter någon annanstans. Men så är inte fallet. Här sitter vi alla på samma våning precis bredvid varandra, och det gör det till en mycket intressant miljö där vi kan vidareutveckla idéer tillsammans med ingenjörerna.

Vårt team har byggt ramverk som gör det möjligt för forskarna att föra in en modell i produktionssystemet med minimal ansträngning. Att ta fram ett modellkoncept och implementera det inom produktion brukade ta många, många månader, men nu har vi tagit ner det till några veckor. Någon kan komma med en fantastisk ny idé eller en ny maskininlärningsmodell, snabbt testa den och lansera den i produktion, efter vilket den körs direkt. Det är fantastiskt eftersom det gör att någon kan se effekten av vad de har gjort under en mycket kort period. Jag tror inte att den typen av möjlighet finns någon annanstans, där du verkligen kan göra skillnad för ett företag som mäts i miljarder dollar.

Hur tänker du om när det gäller annonsering i din roll?

Eftersom webbläsare allt oftare lämnar cookies från tredje part i det förflutna har min forskning flyttat till kontextuella annonser. Dessa annonser identifierar huvudämnet, innehållet och de bästa nyckelorden på en webbsida och visar den lämpligaste annonsen baserat på denna information. Det är vårt ansvar på Amazon att se till att de annonsörer som litar på oss fortsätter att få samma resultat som tidigare.

Jag är glad över att vi driver innovation inom kontextuella annonser genom att använda toppmoderna AI-tekniker som ger den bästa upplevelsen för både annonsörer och användare.

Upptäck var Amazon Ads kan använda din expertis. Se våra lediga befattningar.