Kulisy publikacji: Anand Muralidhar wykrywa kliknięcia w reklamach generowane przez roboty

Anand

Zaufanie klientów jest dla firmy Amazon priorytetem, nie ma więc na jej platformach miejsca na fałszywe kliknięcia reklam. Ze względu na to, że nieuczciwe osoby i grupy z coraz większym wyrafinowaniem programują boty, aby podszywały się pod ludzi klikających reklamy, zespół Amazon Ads wzmocnił zabezpieczenia. Powstały w wyniku tego model opisano w tym artykule oraz w publikacji zaprezentowanej na konferencji poświęconej innowacyjnym zastosowaniom sztucznej inteligencji w 2023 roku, która była częścią corocznego spotkania Stowarzyszenia na Rzecz Rozwoju Sztucznej Inteligencji (AAAI, Association for the Advancement of Artificial Intelligence).

Anand Muralidhar, główny autor i kierownik naukowy Amazon Ads, który ma doktorat z inżynierii elektrycznej i komputerowej uzyskany na Uniwersytecie Illinois w Urbanie i Champaign, opowiada tutaj o tej publikacji i o swoich bieżących badaniach.

Dlaczego dołączyłeś do Amazon Ads?

Szczerze mówiąc, na początku nie znałem rodzaju pracy wykonywanej przez zespół Amazon Ads. W 2016 roku kończyłem pracę nad startupem i rozglądałem się za rolą, która pozwoliłaby mi pracować nad modelami uczenia maszynowego, i ta rola pojawiła się na horyzoncie. Zabrałem się za to, nie mając pojęcia o skali ani złożoności, więc po dołączeniu do zespołu byłem mile zaskoczony.

Na jakich obszarach badań się skupiasz?

Moje zainteresowania badawcze ewoluowały. Mniej więcej pierwsze trzy czwarte mojej kariery w Amazon spędziłem na wykrywaniu ruchu generowanego przez roboty. W ciągu ostatnich kilku lat zacząłem przyglądać się reklamie kontekstowej. Jest to ważny obszar zainteresowania dla Amazon Ads, w ramach którego staramy się zrozumieć zawartość strony internetowej lub aplikacji oglądanej przez użytkownika, a następnie wyświetlać dopasowane do tej zawartości reklamy. Więc jeśli jesteś na stronie z przepisem na, powiedzmy, ciasto czekoladowe, chcę pokazać Ci reklamy związane z ciastem czekoladowym, na przykład z blachą do pieczenia, masłem, posypką czekoladową i tak dalej.

Co to jest ruch generowany przez roboty i skąd się bierze?

Każdego dnia w witrynie Amazon.com wyświetlamy miliardy reklam, które generują miliony kliknięć, i pobieramy od reklamodawców opłaty za wszystkie kliknięcia reklam. W sieci działają pozbawione skrupułów osoby i grupy chcące to wykorzystać, które tworzą roboty klikające te reklamy.

Może istnieć wiele powodów do utworzenia robota klikającego reklamy. Na przykład w celu wyczerpania budżetu reklamowego sprzedawcy zegarków na rękę. Załóżmy, że ktoś szuka zegarków w witrynie Amazon i zegarki danego sprzedawcy pojawiają się w reklamach. Jeśli robot będzie klikać każdą taką reklamę, budżet reklamowy sprzedawcy wkrótce się wyczerpie i żadna osoba nigdy nie zobaczy reklamy. Innym przykładem ruchu generowanego przez roboty jest sytuacja, w której robot podnosi ranking reklam danego produktu za pomocą kliknięć, nawet jeśli inne reklamy są trafniejsze w przypadku danego zapytania wyszukiwania. Może to wprowadzać systemy uczenia maszynowego w błąd i podwyższać rankingi.

Osoby tworzące roboty działają teraz w bardzo wyrafinowany sposób i ciągle ulepszają oraz rozwijają algorytmy.

W jaki sposób Twoja publikacja Real-Time Detection of Robotic Traffic in Online Advertising („Wykrywanie ruchu generowanego przez roboty w czasie rzeczywistym w reklamie online”) traktuje ten problem?

Ta konkretna publikacja dotyczy modelu uczenia maszynowego służącego do identyfikowania takiego ruchu generowanego przez roboty: wykrywania robotów na poziomie segmentów (SLIDR, slice-level detection of robots). Model SLIDR działa w czasie rzeczywistym i analizuje każde kliknięcie wykonane w witrynie Amazon.com przez kogoś wyświetlającego reklamę. Ustala, czy kliknięcie pochodzi od człowieka, czy od robota. Jeśli pochodzi od robota, nie pobieramy opłat od reklamodawcy.

Model SLIDR wdrożono w 2021 roku i każdego dnia przetwarza on dziesiątki milionów kliknięć oraz kilka miliardów odsłon. Dzisiaj wdrożenie modelu uczenia głębokiego może nie wydawać się taką wielką sprawą, ponieważ wszyscy to robią. Jednak kiedy przystąpiliśmy do tego w 2020 roku, był to prawdopodobnie pierwszy taki model działający na taką skalę w witrynie Amazon.com i było to dla nas sporym wyzwaniem.

Model SLIDR analizuje segmenty ruchu pochodzącego z różnych urządzeń, takich jak komputery, aplikacja mobilna czy mobilne strony internetowe. Wszystko to należy obsługiwać inaczej, aby osiągnąć maksymalną wydajność systemu, i opracowaliśmy w tym celu kilka technik. Z czasem zdaliśmy sobie również sprawę z tego, że potrzebujemy odpowiednich ram w celu zadbania o to, aby podczas wdrażania tych systemów w produkcji nic nie poszło źle i abyśmy zawsze mieli tryb awaryjny. Publikacja zawiera również pewne inne szczegółowe dane techniczne na temat tego, jak skonfigurowaliśmy ten problem, takie jak architektura modelu, rodzaj metryk używanych przez nas do oceny skuteczności, sposób działania modelu na różnych segmentach ruchu i tak dalej.

Co sprawia, że te badania i ich wpływtak ekscytujące?

Model SLIDR pozwala uzyskać oszczędności przychodów reklamodawców, które w przeciwnym razie zostałyby zmarnowane.

Kolejną ważną rzeczą jest skala: Istnieje bardzo niewiele systemów dorównujących Amazon Ads pod tym względem. Nawet gdy ludzie mówią o tworzeniu modeli do obsługi dużych zbiorów danych (big data), tak naprawdę nie uruchamiają tych modeli na taką skalę.

To jedna ze wspaniałych rzeczy w pracy w Amazon Ads: praca z danymi w naprawdę niewyobrażalnej skali. Obsługujemy miliardy rekordów dziennie i w ciągu miesiąca kumuluje się to do ogromnej ilości danych. Tak więc rodzaje tworzonych przez nas modeli muszą być niezawodne, bardzo wydajne i ściśle monitorowane. Jednocześnie używamy uczenia maszynowego, więc musimy również zagwarantować skuteczność na podstawie wybranych przez nas wskaźników.

Wszystko to sprawia, że ten obszar pracy jest dość wymagający i ekscytujący. Ostatecznie obserwujemy w danych wiele dziwnych elementów, których nie dostrzega się, gdy wykonuje się tylko badania teoretyczne lub pracuje się z dowodem słuszności koncepcji. Dopiero gdy zacznie się realizować rzeczy na taką skalę, w której nawet niewielkie przesunięcie w skuteczności modelu może mieć ogromny wpływ na przychody Amazon lub budżet klienta, złożoność staje się widoczna.

Kolejnym wpływem tych badań było to, że dały nam wiele pewności co do tego, jak wdrażać modele uczenia głębokiego w infrastrukturze produkcyjnej. Wcześniej nie mieliśmy w tym doświadczenia i nie byliśmy pewni, jak to zrealizować. Teraz bardzo komfortowo czujemy się w uruchamianiu modeli uczenia głębokiego na dużą skalę i był to dla nas dość duży skok.

Dlaczego Twój zespół zdecydował się na realizację modelu SLIDR?

Niektóre z początkowych rozwiązań opracowanych przez mój zespół do identyfikowania ruchu generowanego przez roboty opierały się na stosunkowo prostych regułach, które na przestrzeni czasu stały się dość złożone. Śledziliśmy różne parametry, jak na przykład szybkość, z jaką dany adres IP lub użytkownik generował kliknięcia, oraz to, ilu kliknięć dokonano w ciągu ostatnich kilku godzin, ostatnich kilku minut, ostatnich kilku sekund i tak dalej.

Wraz z rozwojem Amazon Ads rosła również skala ruchu generowanego przez roboty i złożoność algorytmów stosowanych przez sprawców używających robotów. Zrozumieliśmy, że stosowane przez nas reguły nie były odpowiednio skalowane, aby sprostać wyzwaniu, a kalibrowanie ich ręcznie co roku lub co kwartał było dość czasochłonnym zadaniem.

Skłoniło nas to do zadania sobie pytania, czy nie powinniśmy odejść od reguł tworzonych ręcznie w kierunku modelu uczenia maszynowego. Był to problem, jaki musieliśmy rozwiązać na początku, nie tylko ze względu na skalę, ale też na konieczność obsługi tego w czasie rzeczywistym. Na ocenę kliknięć w miarę ich występowania mamy tylko kilka milisekund. Opracowaliśmy kilka modeli nazywanych drzewami wzmacnianymi gradientowo, które przez kilka lat działały całkiem pomyślnie. Potem jednak przeszliśmy przez etap związany z uczeniem głębokim, co dało nam okazję do udoskonalenia naszych modeli. Modele te nadal ewoluują, a my tworzymy bardziej złożone techniki pozwalające jeszcze lepiej odróżniać kliknięcia generowane przez ludzi od tych generowanych przez roboty.

Wspomniałeś, że byłeś mile zaskoczony skalą i złożonością Amazon Ads, kiedy dołączyłeś do zespołu. Co jeszcze zauważyłeś?

Można by pomyśleć, że naukowcy sobie siedzą, opracowują modele uczenia maszynowego, a potem po prostu piszą specyfikację na potrzeby wdrażania i przekazują ją inżynierom, którzy operują gdzieś indziej. Wcale tak nie jest. Tutaj wszyscy pracujemy na tym samym piętrze tuż obok siebie, dzięki czemu jest to bardzo interesujące środowisko, w którym możemy iterować pomysły wspólnie z inżynierami.

Nasz zespół opracował platformę pozwalającą naukowcom wdrożyć model w systemie produkcyjnym przy minimalnym wysiłku. Cykl od opracowania koncepcji modelu do wdrożenia go w infrastrukturze produkcyjnej obejmował wiele, wiele miesięcy, ale teraz skróciliśmy go do zaledwie kilku tygodni. Ktoś może wpaść na nowy fantastyczny pomysł lub wymyślić nowy model uczenia maszynowego, szybko go przetestować, a potem wdrożyć go w infrastrukturze produkcyjnej, aby stał się on aktywnie dostępny. To fantastyczne, ponieważ pozwala zobaczyć wpływ tego pomysłu lub modelu w bardzo krótkim czasie. Nie sądzę, aby tego rodzaju szanse były dostępne gdzieś indziej, aby gdzieś indziej było możliwe wprowadzanie przełomowych zmian w działalności mierzonej w miliardach dolarów.

W jaki sposób Twoja praca na obecnym stanowisku wpływa na zmianę postrzegania reklamy?

W związku z tym, że przeglądarki internetowe nadal odchodzą od stosowania plików cookie stron trzecich, moje badania przesunęły się w kierunku reklam kontekstowych. Te reklamy identyfikują główny temat, treść oraz najważniejsze słowa kluczowe strony internetowej w celu wyświetlania najodpowiedniejszej reklamy na podstawie tych informacji. Naszym obowiązkiem w firmie Amazon jest dbanie o to, aby reklamodawcy, którzy nam ufają, nadal osiągali takie same wyniki jak poprzednio.

Cieszę się, że napędzamy innowacje w obszarze reklam kontekstowych, wykorzystując najnowocześniejsze techniki sztucznej inteligencji, aby zapewniać najlepsze środowisko zarówno reklamodawcy, jak i użytkownikowi.