論文背後: Anand Muralidhar 偵測廣告中的機器人點擊量

Anand

顧客信任是亞馬遜的首要任務,因此在其平台上,廣告的欺詐性點擊量是無容忍的。隨著有心人士在編程機器人模擬人類點擊廣告方面變得越來越高明,亞馬遜廣告加強了其安全措施。這個模型的結果在此文章中有詳細描述,並在 2023 年人工智慧創新應用大會上發表,該大會是人工智慧推進協會年會的一部分。

本篇論文的主要作者兼亞馬遜廣告首席科學家 Anand Muralidhar,擁有伊利諾大學厄巴納-香檳分校的電機及電腦工程博士學位,在此分享他對於該論文以及目前研究的見解。

您為什麼會 加入亞馬遜廣告

老實說,剛開始我並不熟悉亞馬遜廣告的工作內容。2016 年,我結束了新創公司的工作,並在尋找一個能讓我專注於機器學習模型的職位,這時這個職位出現了。我加入時並沒有想到規模或複雜度,所以下來後才發現這是一個很驚喜的挑戰。

您現在著重於哪個領域研究

我的研究重點逐漸演變。在亞馬遜工作的前三年,我主要專注於偵測機器人流量。而在過去幾年,我開始轉向研究內容相關廣告。這對於亞馬遜廣告來說是一個重要的研究領域,因為我們試圖了解使用者正在瀏覽的網頁或應用程式的內容,並根據這些內容展示相關的廣告。舉例來說,如果您在瀏覽一個關於巧克力蛋糕食譜的頁面,那麼我希望向您展示與巧克力蛋糕相關的廣告,也許是烤盤、奶油、巧克力片等等。

什麼是機器人流量,為什麼會發生?

在亞馬遜網站上,我們每天展示數十億個廣告,並且收到數百萬點擊量,每當有人點擊廣告時,我們會向廣告主收費。網路上有些有心人士想要利用這一點,他們會製造機器人來點擊這些廣告。

製造機器人來點擊廣告的原因可能有很多種。假設您想要耗盡賣手錶商家的廣告預算。當有人在亞馬遜上搜尋手錶,賣家的手錶廣告展示出來時,如果機器人點擊每一個此類廣告,賣家的廣告預算將會很快耗盡,而根本不會有任何人看到這些廣告。另一個機器流量的範例是,當機器人透過點擊量提高一個商品的廣告排名,即使其他廣告對於搜尋查詢來說更具相關性。這可能會混淆機器學習系統,並無意中提高廣告排名。

那些創造這些機器人的人變得非常精巧,他們不斷改進和發展他們的演算法。

您的論文《即時偵測線上廣告中的機器人流量》如何解決這個問題?

這篇論文討論了一個用來識別機器人流量的機器學習模型:切片級機器人偵測 (SLIDR)。SLIDR 即時運行,並且會查看每一次在 Amazon.com 上瀏覽廣告的人所點擊的每個廣告。它會判斷點擊是否來自人類還是機器人,如果是來自機器人,我們就不會向廣告主收費。

SLIDR 在 2021 年部署,並且每天處理數千萬次點擊量和數十億曝光數。如今,部署深度學習模型可能聽起來並不算什麼大事,因為大家都在做。但當我們在 2020 年開始這個專案時,這可能是第一個在 Amazon.com 上以如此大規模運行的類似模型,這對我們來說是一個相當大的挑戰。

SLIDR 模型會查看來自不同設備的流量片段,例如桌上型電腦、行動應用程式或行動網站。所有這些流量需要以不同的方式處理,才能達到系統的最佳性能,我們也提出了一些技術來實現這一點。隨著時間的推移,我們也意識到,我們需要設防護措施,以確保在將這些系統部署到生產環境中時不會出現問題,並且始終擁有故障保護模式。這篇論文還包含了一些其他的技術細節,說明我們是如何設立問題的:模型架構、我們用來評估性能的指標、模型如何在不同的流量片段上運作,等等。

這項研究其影響有什麼令人振奮的部分?

SLIDR 最終能夠挽救本來會被浪費的廣告主收入。

另一個重要的方面是規模: 在這方面,幾乎沒有其他系統能與亞馬遜廣告相比。即使當人們談論構建大數據模型時,他們實際上並不會在那樣的規模上運行這些模型。

這就是在亞馬遜廣告工作的一個奇妙之處,您會處理一個相當難以想像的資料規模。我們每天處理數十億條記錄,這在一個月內會積累成大量的資料。因此,我們建立的模型必須非常堅固、高效並且需要密切監控。同時,我們也使用機器學習,所以我們還需要根據我們選擇的指標來保證性能。

這一切使得這個領域成為一個相當具有挑戰性和令人興奮的工作場所。我們最終會看到許多資料中的怪異現象,這些在純粹的理論研究或概念驗證中是看不到的。只有當您開始以這樣的規模運行時,才會發現即使模型性能的微小變動,也可能對亞馬遜的收入或顧客的預算產生巨大影響,這時複雜性才變得明顯。

這項研究的另一個影響是,它讓我們對如何在生產框架中部署深度學習模型充滿了信心。在此之前,我們沒有這方面的經驗,也不確定如何實現。現在,我們非常有信心大規模運行深度學習模型,這對我們來說是一次相當大的突破。

為什麼您的團隊決定 追求 SLIDR 模型

我的團隊最初為識別機器人流量所建構的一些解決方案是基於相對簡單的規則,但隨著時間的推移,這些規則變得相當複雜。我們追蹤各種參數,例如某個特定 IP 位址或使用者在過去幾小時、幾分鐘、幾秒鐘內的點擊速率和點擊量。

隨著亞馬遜廣告業務的成長,機器人流量的規模以及機器人攻擊者所使用的演算法也變得更加複雜。我們意識到現有的規則無法擴展以應對挑戰,而每年或每個季度手動調整規則是一個相當耗時的過程。

這讓我們開始思考,是否應該從手工制定規則轉換為機器學習模型。這問題在一開始就需要解決,不僅因為規模問題,還有即時性的需求。我們只有幾毫秒的時間來評估發生的點擊量。我們建立了一些名為梯度提升樹的模型,並且這些模型在過去幾年中運行得相當成功。然而,隨著深度學習浪潮的到來,我們看到了將模型提升到新層次的機會。這些模型不斷演進,我們正在建立更複雜的技術,能夠更有效地區分人類點擊量和機器人點擊量。

您提到當初加入時,對亞馬遜廣告的規模和複雜性感到驚訝。您還注意到什麼?

您可能會認為科學家們只是坐在一個角落開發機器學習模型,然後寫好規範交給坐在別處的工程師進行部署。但事實並非如此。在這裡,我們大家都坐在同一層樓,彼此緊鄰,這創造了一個非常有趣的環境,我們可以與工程師並肩合作,不斷迭代想法。

我們的團隊已經建立了框架,讓科學家能夠以最小的努力將模型部署到生產系統中。從提出模型概念到將其部署到生產環境的週期,過去通常需要好幾個月,但現在我們已經將其縮短為幾週。有人可以提出一個精彩的新想法或新的機器學習模型,快速測試並部署到生產環境中,然後它就會實時運行。這很棒的是,它讓人能夠在非常短的時間內看到自己所做的影響。我認為在其他地方不太可能有這樣的機會,能夠真正對一家以數十億美元計算的企業產生影響。

您如何在自己的角色中重新構想廣告

隨著網路瀏覽器逐漸遠離第三方 Cookie,我的研究已轉向內容相關廣告。這些廣告會識別網頁的主要主題、內容和熱門關鍵字,並根據這些資訊顯示最適合的廣告。這是我們在亞馬遜的責任,確保那些信任我們的廣告主,能夠繼續獲得與以前相同的表現。

我很高興我們在內容相關廣告領域推動創新,利用最先進的 AI 技術為廣告主和使用者提供最佳體驗。