論文の背景: Anand Muralidharが広告のロボットクリックを検出

お客様の信頼はAmazonにとって優先事項であるため、Amazonのプラットフォームにおける広告の不正クリックは許されません。悪意のある人物が、広告をクリックする人間になりすますボットのプログラミングをより巧妙に行うようになったため、Amazon Adsはセキュリティを強化しました。結果として得られたモデルについては、この記事と、Association for the Advancement of Artificial Intelligence(人工知能学会)の年次総会の一部である「2023 Conference on Innovative Applications of Artificial Intelligence(2023年人工知能の革新的応用)」で発表された論文で説明されています。
イリノイ大学アーバナ・シャンペーン校で電気工学とコンピューター工学の博士号を取得した筆頭著者であり、Amazon Adsの主任科学者であるAnand Muralidharが、この論文と現在の研究について語ります。
Amazon Adsに入社した理由を教えてください。
正直に言うと、最初はAmazon Adsがどのような仕事をしているのかよく知りませんでした。2016年に、私はスタートアップでの仕事を終えようとしており、機械学習モデルに取り組める役職を探していたところ、この役職が見つかりました。私は規模や複雑さについて全く知らずにこの仕事を始めたので、チームに参加したときは嬉しい驚きでした。
重点的に取り組んでいる研究分野を教えてください。
私の研究の焦点は変化してきました。私はAmazonでのキャリアの最初の4分の3を、ロボットによるトラフィックの検出に費やしました。ここ数年、私はコンテキスト広告に目を向け始めました。Amazonでは、ユーザーが閲覧しているウェブページやアプリのコンテンツを把握し、それに合った広告を表示するように努めているので、これはAmazon Adsにとって重要な重点分野です。たとえば、チョコレートケーキのレシピを扱っているページを開いている場合は、ベーキングパン、バター、チョコレートチップなどのチョコレートケーキに関連する広告を表示します。
ロボットトラフィックとは何のことで、なぜ生じるのですか?
Amazon.comでは毎日、何十億もの広告が表示され、何百万回ものクリックを獲得し、誰かが広告をクリックするたびに広告主様に料金が請求されます。ウェブ上にはこれを悪用しようとする悪徳業者がいて、こうした広告をクリックするロボットを作っています。
広告をクリックするロボットを構築する理由はさまざまです。たとえば、ある腕時計の販売業者の広告予算を枯渇させたいとします。誰かがAmazon内で時計を検索し、販売者の時計が広告として表示される場合、ロボットがそのような広告をすべてクリックすると、販売者の広告予算はすぐに使い果たされ、人間が広告を見ることはなくなります。ロボットによるトラフィックの別の例は、検索クエリに対して他の広告の方が関連性が高い場合でも、ロボットがクリックを通じて商品の広告ランキングを押し上げる場合です。これにより、機械学習システムが混乱し、間違ってランキングが上昇する可能性があります。
これらのロボットを開発する人々は非常に洗練されてきており、アルゴリズムを改良し、進化させ続けています。
あなたの論文「オンライン広告におけるロボットトラフィックのリアルタイム検出(Real-Time Detection of Robotic Traffic in Online Advertising)」では、この問題にどのように対処していますか?
この論文では、このようなロボットトラフィックを識別するための機械学習モデル、つまりロボットのスライスレベル検出(SLIDR)について説明しています。SLIDRはリアルタイムで実行され、広告を閲覧したユーザーがAmazon.comで行ったすべてのクリックを調べます。クリックが人間によるものかロボットによるものかを判断し、ロボットによるものであれば広告主様に請求は行われません。
SLIDRは2021年に導入され、毎日数千万回のクリックと数十億回のインプレッションを処理しています。今日、ディープラーニングモデルの導入は誰もが行っているため、それほど大したことではないように思えるかもしれません。しかし、2020年にこれを始めたとき、これはおそらくAmazon.comでこのような規模で実行される最初のモデルであり、私たちにとってはかなりの挑戦でした。
SLIDRモデルでは、デスクトップ、モバイルアプリ、モバイルウェブなど、さまざまなデバイスからのトラフィックを細かく分けて分析します。システムから最大限のパフォーマンスを引き出すためには、これらすべてを異なる方法で処理する必要があり、私たちはそれを実現するためのいくつかの手法を考案しました。また、時間の経過とともに、これらのシステムを本番環境に導入する際に問題が起こらず、常にフェイルセーフモードが確保されるようにするためのガードレールが必要であることもわかってきました。この論文には、モデルのアーキテクチャ、パフォーマンス評価に使用する指標の種類、トラフィックのさまざまな部分でモデルがどのように機能するかなど、問題の設定方法に関するその他の技術的な詳細も記載されています。
この研究とその影響で興味深い点は何ですか?
SLIDRは、無駄になっていた可能性のある広告主様の収益を節約します。
もう1つ重要なのは規模です。 この点でAmazon Adsに匹敵するシステムはほとんどありません。ビッグデータのモデル構築について論じていても、実際にその規模でモデルを実行することはできません。
これは、Amazon Adsで働くことの素晴らしい点の1つです。想像を絶する規模のデータを扱うことができるのです。私たちは1日に数十億件のレコードを処理しており、1か月では膨大な量のデータになります。そのため、私たちが構築するモデルの種類は、堅牢で、非常に効率的で、厳密に監視される必要があります。同時に、機械学習も使用するため、選択した指標に基づいてパフォーマンスを保証する必要もあります。
これらすべてが、この職場を非常にやりがいのあるエキサイティングなものにしています。結局、データには奇妙な点が数多く見られることになりますが、これは理論的な研究や概念実証だけを行っている場合には見ることのできないものです。このような規模で運用を開始して始めると、モデルのパフォーマンスのわずかな変動でもAmazonの収益やお客様の予算に大きな影響を与える可能性があるため、複雑さが明らかになります。
この研究のもう1つの影響は、ディープラーニングモデルを実稼働フレームワークに展開する方法について大きな自信が得られたことです。それまでは、それをやった経験もなく、どうやって成功させるかもわかりませんでした。今では、ディープラーニングモデルを大規模に実行することに非常に慣れており、これは私たちにとってかなり大きな飛躍でした。
なぜあなたのチームはSLIDRモデルを追求することにしたのですか?
私のチームがロボットによるトラフィックを識別するために最初に構築したソリューションの中には、比較的単純なルールに基づいていたものもありましたが、時間が経つにつれて非常に複雑になっていきました。特定のIPアドレスまたはユーザーのクリック率や、直近数時間、直近数分、直近数秒のクリック数など、さまざまなパラメーターを追跡していました。
Amazon Adsが拡大するにつれて、ロボットによるトラフィックの規模と、ロボットによる攻撃者が使用するアルゴリズムの複雑さも増していきました。私たちが導入していたルールは課題に合わせてスケーリングできず、毎年、あるいは四半期ごとの手動調整は、かなり時間のかかる作業であることに気づきました。
これにより、手作業で作成したルールから機械学習モデルに移行すべきかどうかという疑問が生じました。これは、規模だけでなくリアルタイム性の問題も関係するため、まず解決すべき問題でした。クリックが発生するたびに評価できる時間はわずか数ミリ秒です。私たちはグラデーションブーストツリーと呼ばれるモデルをいくつか作成し、数年間は順調に稼働しました。しかしその後、ディープラーニングの波が起こり、モデルを次のレベルに引き上げる機会が生まれました。これらのモデルは進化を続けており、人間のクリックとロボットのクリックをさらに正確に区別できる、より複雑な手法を作成しています。
入社したとき、Amazon Adsの規模と複雑さに嬉しい驚きを感じたとおっしゃっていましたね。他に何か気づいたことはありますか?
科学者は自分の部屋の隅に座って機械学習モデルを開発し、その後は展開用の仕様書を書いて、別の場所にいるエンジニアに渡すだけだと思うかもしれません。しかし、そうではありません。ここでは、全員が同じフロアに隣り合って座っているので、エンジニアと協力してアイデアを繰り返すことができる非常に興味深い環境になっています。
私たちのチームは、科学者が最小限の労力でモデルを実稼働システムに展開できるフレームワークを構築しました。モデルコンセプトを考案してから本番環境に導入するまでのサイクルは、以前は何か月もかかっていましたが、今では数週間に短縮されました。誰かが素晴らしい新しいアイデアや新しい機械学習モデルを思いつき、すぐにテストして本番環境で起動すれば、実際に実行させることができます。これは素晴らしいことです。なぜなら、自分のやったことの影響を非常に短期間で確認することができるからです。数十億ドル規模のビジネスに本当に変化をもたらすことができるような機会は、他では得られないと思います。
ご自身の役割において、どのように広告を再考していますか?
インターネットブラウザがサードパーティクッキーから離れていくにつれて、私の研究はコンテキスト広告に移行しました。これらの広告は、ウェブページのメイントピック、コンテンツ、トップキーワードを識別し、これらの情報に基づいて最も適切な広告を表示します。Amazonに信頼を寄せている広告主様がこれまでと同じ成果を引き続き得られるようにすること、これがAmazonでの私たちの責任です。
最先端のAI技術を使用して、広告主様とユーザーの両方に最高のエクスペリエンスを提供することで、コンテキスト広告の分野でイノベーションを推進できることを嬉しく思います。