Hinter den Kulissen: Anand Muralidhar erkennt Bot-Klicks auf Werbung

Das Vertrauen der Kunden hat für Amazon Priorität, daher gibt es keinen Platz für betrügerische Klicks auf Werbung auf seinen Plattformen. Da böswillige Akteure immer raffiniertere Bots programmieren, die sich als Menschen ausgeben, die auf Anzeigen klicken, hat Amazon Ads seine Sicherheit erhöht. Das daraus resultierende Modell wird in diesem Artikel und in einem Paper beschrieben, das auf der Conference on Innovative Applications of Artificial Intelligence 2023, Teil der Jahrestagung der Association for the Advancement of Artificial Intelligence, vorgestellt wurde.

Der Hauptautor und Principal Scientist bei Amazon Ads, Anand Muralidhar, der an der University of Illinois Urbana-Champaign in Elektro- und Computertechnik promoviert hat, spricht hier über das Paper und seine aktuelle Forschung.

Warum haben Sie sich für Amazon Ads entschieden?

Um ehrlich zu sein, war ich anfangs nicht mit der Art von Arbeit vertraut, die Amazon Ads leistet. Im Jahr 2016 beendete ich meine Arbeit bei einem Startup und suchte nach einer Aufgabe, die es mir ermöglichen würde, an Modellen für maschinelles Lernen zu arbeiten. Ich bin ohne eine Vorstellung vom Umfang oder der Komplexität daran herangegangen, also war es eine willkommene Überraschung, als ich dem Team beitrat.

Auf welche Forschungsbereiche konzentrieren Sie sich?

Mein Forschungsschwerpunkt hat sich weiterentwickelt. Ich habe vielleicht die ersten drei Viertel meiner Amazon-Karriere damit verbracht, Bot-Traffic zu erkennen. In den letzten paar Jahren habe ich angefangen, mich mit Kontextwerbung zu beschäftigen. Das ist ein wichtiger Schwerpunkt für Amazon Ads, da wir versuchen, den Inhalt einer Website oder einer App zu verstehen, die ein Nutzer anschaut, und dann darauf abgestimmte Anzeigen zu zeigen. Wenn Sie also auf einer Seite sind, auf der es um ein Rezept für, sagen wir, Schokoladenkuchen geht, dann möchte ich Ihnen Anzeigen zeigen, die mit Schokoladenkuchen zu tun haben – vielleicht eine Backform, Butter, Schokosplitter und so weiter.

Was ist Bot-Traffic, und wie entsteht er?

Jeden Tag zeigen wir auf Amazon.com Milliarden von Anzeigen, die Millionen von Klicks erhalten, und wir berechnen Werbetreibenden jedes Mal eine Gebühr, wenn jemand auf eine Anzeige klickt. Es gibt einige skrupellose Elemente im Internet, die dies ausnutzen wollen, und sie entwickeln Bots, um auf diese Anzeigen zu klicken.

Es kann eine Vielzahl von Gründen geben, einen Bot zu bauen, der auf Anzeigen klickt. Nehmen wir an, Sie möchten das Werbebudget eines Verkäufers von Armbanduhren ausschöpfen. Wenn jemand auf Amazon nach Uhren sucht und die Uhren des Verkäufers als Anzeigen erscheinen, wird das Werbebudget des Verkäufers sehr schnell aufgebraucht, wenn ein Bot auf jede solche Anzeige klickt, ohne dass jemals ein Mensch eine Anzeige sieht. Ein weiteres Beispiel für Bot-Traffic ist, wenn ein Bot durch Klicks das Anzeigen-Ranking eines Produkts nach oben treibt, auch wenn andere Anzeigen für eine Suchanfrage relevanter sind. Dies könnte maschinelle Lernsysteme verwirren und unbeabsichtigt die Platzierungen verbessern.

Die Menschen, die diese Bots entwickeln, sind sehr raffiniert geworden, und sie verbessern und entwickeln ihre Algorithmen ständig weiter.

Wie gehen Sie in Ihrem Paper Real-Time Detection of Robotic Traffic in Online Advertising (Echtzeiterkennung von Bot-Traffic in der Online-Werbung) dieses Problem an?

In diesem Paper geht es um ein maschinelles Lernmodell zur Erkennung von Bot-Traffic: Slice-Level Detection of Robots (SLIDR). SLIDR läuft in Echtzeit und erfasst jeden Klick, der auf Amazon von jemandem getätigt wird, der eine Anzeige sieht. Es stellt fest, ob der Klick von einem Menschen oder einem Bot stammt – und wenn er von einem Bot kommt, berechnen wir dem Werbetreibenden nichts.

SLIDR wurde 2021 eingeführt und verarbeitet täglich mehrere zehn Millionen Klicks und einige Milliarden Impressions. Heutzutage mag der Einsatz eines Deep-Learning-Modells keine große Sache sein, weil es jeder macht. Als wir damit aber im Jahr 2020 begannen, war es wahrscheinlich das erste derartige Modell, das in diesem Umfang auf Amazon lief, und es war eine große Herausforderung für uns.

Das SLIDR-Modell betrachtet Traffic-Ausschnitte, die von verschiedenen Geräten kommen, z. B. Desktop, mobile Apps oder mobiles Web. All das muss unterschiedlich gehandhabt werden, um die maximale Performance des Systems zu erreichen, und wir haben einige Techniken dafür entwickelt. Außerdem wurde uns mit der Zeit klar, dass wir Leitschienen brauchen, um sicherzustellen, dass bei der Bereitstellung dieser Systeme in der Produktion nichts schief geht und wir immer einen ausfallsicheren Modus haben. Das Paper enthält auch einige weitere technische Details darüber, wie wir das Problem aufgesetzt haben: die Modellarchitektur, die Art der Metriken, die wir zur Performance-Bewertung verwenden, wie das Modell bei verschiedenen Traffic-Ausschnitten funktioniert, und so weiter.

Was ist spannend an dieser Forschung und ihrer Auswirkung?

SLIDR spart Werbetreibenden letztendlich Einnahmen, die sonst verschwendet worden wären.

Eine weitere wichtige Sache ist der Umfang: In dieser Hinsicht gibt es nur sehr wenige Systeme, die mit Amazon Ads mithalten können. Selbst wenn Leute davon sprechen, Modelle für Big Data zu entwickeln, führen sie diese Modelle nicht wirklich in diesem Umfang aus.

Das ist eines der wunderbaren Dinge an der Arbeit bei Amazon Ads – wir arbeiten mit Daten in einem Umfang, der geradzu unvorstellbar ist. Wir verarbeiten Milliarden von Datensätzen pro Tag, und das ergibt über einen Monat hinweg eine riesige Datenmenge. Die Arten von Modellen, die wir entwickeln, müssen effektiv, sehr effizient und genau überwacht sein. Gleichzeitig verwenden wir maschinelles Lernen, daher müssen wir auch die Performance basierend auf den von uns gewählten Metriken garantieren.

All dies macht es zu einem ziemlich herausfordernden und spannenden Arbeitsbereich. Letztendlich sehen wir viele Eigenheiten in den Daten, die man nicht bemerkt, wenn man nur theoretische Forschung betreibt oder an einem Machbarkeitsnachweis arbeitet. Erst wenn Sie anfangen, Dinge in diesem Umfang zu betreiben, bei dem selbst eine kleine Veränderung der Performance Ihres Modells enorme Auswirkungen auf den Umsatz von Amazon oder das Budget eines Kunden haben kann, wird die Komplexität offensichtlich.

Eine weitere Auswirkung dieser Forschung war, dass sie uns viel Vertrauen darin gab, wie man Deep-Learning-Modelle in einem Produktionsumfeld einsetzen kann. Davor hatten wir keine Erfahrung damit und wussten nicht genau, wie wir es hinbekommen sollten. Jetzt sind wir sehr routiniert darin, Deep-Learning-Modelle in großem Umfang auszuführen, und das war ein ziemlich großer Sprung für uns.

Warum hat sich Ihr Team für das SLIDR-Modell entschieden?

Einige der ersten Lösungen, die mein Team zur Identifizierung von Bot-Traffic entwickelte, basierten auf relativ einfachen Regeln, die mit der Zeit recht komplex wurden. Wir verfolgten verschiedene Parameter, wie zum Beispiel die Häufigkeit, mit der eine bestimmte IP-Adresse oder eine anwendende Person Klicks tätigte, und wie viele Klicks in den letzten Stunden, den letzten Minuten, den letzten Sekunden und so weiter gemacht wurden.

Mit dem Wachstum von Amazon Ads nahm auch der Umfang des Bot-Traffics und die Komplexität der Algorithmen zu, die die Bot-Täter verwendeten. Wir erkannten, dass die bestehenden Regeln nicht mit der Herausforderung Schritt halten konnten, und ihre manuelle Kalibrierung jedes Jahr oder vierteljährlich war eine ziemlich zeitaufwendige Aufgabe.

Dies führte uns zu der Frage, ob wir von manuell erstellten Regeln zu einem Modell für maschinelles Lernen übergehen sollten. Dieses Problem galt es zu Beginn zu lösen, nicht nur wegen des Umfangs, sondern auch wegen des Echtzeit-Anforderungen. Wir haben nur wenige Millisekunden Zeit, um Klicks zu bewerten, während sie geschehen. Wir entwickelten einige Modelle, sogenannte Gradient Boosted-Entscheidungsbäume, die über mehrere Jahre hinweg recht erfolgreich liefen. Doch dann kam die Deep-Learning-Welle, die uns die Möglichkeit bot, unsere Modelle auf die nächste Stufe zu heben. Diese Modelle entwickeln sich ständig weiter, und wir entwickeln komplexere Techniken, die noch besser zwischen Klicks von Menschen oder Bots unterscheiden können.

Sie haben erwähnt, dass Sie vom Umfang und der Komplexität von Amazon Ads angenehm überrascht waren, als Sie dazukamen. Was ist Ihnen sonst noch so aufgefallen?

Man könnte meinen, dass Wissenschaftler in ihrer Ecke sitzen und Modelle für maschinelles Lernen entwickeln und dann einfach eine Spezifikation für die Bereitstellung schreiben und sie an Ingenieure weitergeben, die irgendwo anders sitzen. Aber dem ist nicht so. Wir sitzen hier alle auf demselben Stockwerk direkt nebeneinander, und das schafft eine sehr interessante Umgebung, in der wir gemeinsam mit den Ingenieuren Ideen weiterentwickeln können.

Unser Team hat Rahmenbedingungen entwickelt, die es den Wissenschaftlern ermöglichen, ein Modell mit minimalem Aufwand im Produktionssystem einzusetzen. Der Zyklus von der Entwicklung eines Modellkonzepts bis zur Implementierung in der Produktion dauerte früher viele, viele Monate, aber jetzt haben wir ihn auf wenige Wochen reduziert. Jemand kann eine fantastische neue Idee oder ein neues Modell für maschinelles Lernen entwickeln, es schnell testen, in Produktion bringen, und es wird live laufen. Das ist fantastisch, weil es jemandem ermöglicht, die Auswirkungen seiner Handlungen in sehr kurzer Zeit zu sehen. Ich glaube nicht, dass es diese Art von Gelegenheit woanders gibt, wo man wirklich etwas bewegen und einen Unterschied machen kann in einem Unternehmen, das in Milliarden Dollar gemessen wird.

Wie gestalten Sie Werbung in Ihrer Rolle neu?

Da die Internetbrowser immer mehr von Drittanbieter-Cookies abrücken, hat sich meine Forschung auf kontextbezogene Anzeigen verlagert. Diese Anzeigen identifizieren das Hauptthema, den Inhalt und die wichtigsten Keywords einer Website und zeigen die am besten passende Anzeige basierend auf diesen Informationen. Das ist unsere Verantwortung bei Amazon – dafür zu sorgen, dass die Werbetreibenden, die uns ihr Vertrauen schenken, weiterhin die gleiche Performance wie bisher erhalten.

Ich bin begeistert, dass wir Innovationen im Bereich der Kontextwerbung vorantreiben, indem wir modernste KI-Techniken einsetzen, um das beste Erlebnis sowohl für den Werbetreibenden als auch für den Nutzer zu bieten.

Entdecken Sie, wo Amazon Ads Ihr Fachwissen einsetzen könnte. Werfen Sie einen Blick auf unsere offenen Stellen.