En coulisses : Anand Muralidhar détecte les clics des robots sur les publicités

La confiance des clients est une priorité pour Amazon. C'est pour cette raison que l'entreprise ne laisse aucune place aux clics frauduleux sur les publicités sur ses plateformes. Alors que les acteurs malveillants parviennent à programmer des robots de plus en plus sophistiqués afin d'imiter les humains cliquant sur des publicités, Amazon Ads a élevé le niveau en matière de sécurité. Le modèle obtenu est décrit dans cet article et dans un autre article présenté lors de la Conference on Innovative Applications of Artificial Intelligence (Conférence sur les applications innovantes de l'intelligence artificielle) de 2023, dans le cadre de la réunion annuelle de l'Association for the Advancement of Artificial Intelligence (Association pour l'avancée de l'intelligence artificielle).
Ici, Anand Muralidhar, auteur et scientifique principal chez Amazon Ads, diplômé d'un doctorat en génie électrique et informatique à l'université de l'Illinois Urbana-Champaign, parle de cet article de ses recherches en cours.
Pourquoi avoir rejoint Amazon Ads ?
Pour être honnête, je ne connaissais pas vraiment ce que faisait Amazon Ads au départ. En 2016, je réduisais peu à peu mon travail dans une start-up pour me mettre à la recherche d'un poste qui me permettrait de travailler sur des modèles de machine learning, lorsque ce poste est apparu. Je me suis lancé en n'ayant aucune idée de l'échelle ou de la complexité. J'ai donc été agréablement surpris lorsque j'ai rejoint l'équipe.
Sur quels domaines de recherche vous concentrez-vous ?
Mon domaine de recherche a évolué. J'ai passé peut-être les trois quarts de ma carrière chez Amazon à détecter le trafic robotisé. Puis, ces deux dernières années, j'ai commencé à m'intéresser à la publicité contextuelle. C'est un domaine qui intéresse beaucoup Amazon Ads. Nous essayons de comprendre le contenu d'une page web ou d'une application qu'un utilisateur consulte pour ensuite proposer des publicités pertinentes. Par exemple, si vous consultez une recette de gâteau au chocolat, je veux alors vous montrer des publicités associées à ce gâteau au chocolat comme un moule à gâteau, du beurre, des pépites de chocolat, etc.
Qu'est-ce que le trafic robotisé et pourquoi se produit-il ?
Sur Amazon.com, nous présentons chaque jour des milliards de publicités qui reçoivent des millions de clics et nous facturons des annonceurs chaque fois que quelqu'un clique sur une publicité. Certains individus peu scrupuleux sur le Web souhaitent exploiter ceci. C'est pourquoi ils créent des robots afin de cliquer sur ces publicités.
Vouloir créer un robot pour cliquer sur des publicités peut s'expliquer par différentes raisons. Prenons l'exemple d'une personne qui souhaite épuiser le budget publicitaire d'un vendeur de montres. Lorsque quelqu'un recherche des montres sur Amazon et que les montres de ce vendeur s'affichent sous forme de publicités, si un robot clique sur cette publicité, le budget publicitaire du vendeur s'épuisera très vite sans qu'aucun humain ait vu cette publicité. Un autre exemple de trafic robotisé se produit lorsqu'un robot améliore le classement d'un produit au sein des publicités en cliquant dessus, même lorsqu'il existe des publicités plus pertinentes pour une recherche client. Cela peut perturber les systèmes de machine learning et améliorer par inadvertance les classements.
Les gens créent des robots de plus en plus sophistiqués et continuent à s'améliorer et à faire évoluer leurs algorithmes.
Comment votre article Real-Time Detection of Robotic Traffic in Online Advertising (Détection en temps réel du trafic robotisé dans la publicité en ligne) répond-il à ce problème ?
Cet article traite plus particulièrement d'un modèle de machine learning qui permet d'identifier ce trafic : le modèle SLIDR (slice-level detection of robots [détection des robots au niveau des tranches]). Le modèle SLIDR fonctionne en temps réel. Il étudie chaque clic effectué sur Amazon.com par une personne qui consulte une publicité. Il détermine si le client provient d'un humain ou d'un robot, et s'il s'agit d'un robot, nous ne facturons pas l'annonceur.
SLIDR a été déployé en 2021 et traite des dizaines de millions de clics et quelques milliards d'impressions chaque jour. Aujourd'hui, déployer un modèle de deep learning peut ne pas avoir l'air très difficile, car tout le monde le fait. Mais lorsque nous avons commencé en 2020, il s'agissait probablement du premier modèle de ce type à être lancé à une telle échelle sur Amazon.com, et il a constitué un véritable défi pour nous.
Le modèle SLIDR étudie les tranches de trafic en provenance de différents appareils comme un ordinateur, une application mobile ou le web mobile. Tous ces éléments doivent être traités différemment pour obtenir des performances maximales du système. C'est pourquoi nous avons mis au point plusieurs techniques pour y parvenir. Nous nous sommes également rendu compte avec le temps que nous avions besoin de mesures de sécurité. Ainsi, lorsque nous déployons ces systèmes en production, nous sommes sûrs que rien ne se passe mal et que nous avons toujours un mode sans échec à disposition. L'article contient également quelques autres détails techniques sur la manière dont nous avons configuré le problème : l'architecture du modèle, le type de statistiques que nous utilisons pour évaluer les performances, la manière dont le modèle fonctionne sur différentes tranches de trafic, etc.
En quoi cette étude et son incidence sont-elles intéressantes ?
Le modèle SLIDR finit par faire économiser des revenus publicitaires qui auraient été gâchés sans lui.
L'échelle est également un autre élément important : Très peu de systèmes rivalisent avec Amazon Ads à cet égard. Même lorsque les gens parlent de créer des modèles pour les big data, ils ne lancent pas vraiment de modèles à cette échelle.
Cela fait partie de ces choses qui rendent le travail chez Amazon Ads merveilleux : vous travaillez avec des données à une échelle assez inimaginable. Nous traitons des milliards d'enregistrements en un jour, ce qui représente une énorme quantité de données sur un mois. C'est pourquoi les types de modèles que nous concevons doivent être robustes, très efficaces et surveillés de près. Dans le même temps, nous utilisons le machine learning. Nous devons donc garantir des performances en fonction des statistiques que nous avons choisies.
Tous ces éléments rendent le travail assez stimulant et passionnant. Nous finissons par constater de nombreuses excentricités au niveau des données que nous n'aurions pas vu si nous ne faisions que des recherches théoriques ou si nous travaillions avec une preuve de concept. Ce n'est que lorsque vous commencez à lancer des choses à cette échelle, où la moindre altération des performances de votre modèle peut avoir de grandes conséquences sur le chiffre d'affaires d'Amazon ou sur le budget d'un client, que la complexité prend tout son sens.
Un autre effet de cette étude, c'est qu'elle nous a apporté beaucoup de confiance sur la façon dont développer des modèles de deep learning dans un environnement de production. Auparavant, nous n'avions aucune expérience en la matière et nous n'étions pas sûrs de pouvoir y arriver. Maintenant, nous sommes très à l'aise avec le déploiement de modèles de deep learning à grande échelle, et cela a représenté un grand pas en avant pour nous.
Pourquoi votre équipe a-t-elle décidé de poursuivre avec le modèle SLIDR ?
Une partie des solutions de départ que mon équipe a conçu pour identifier le trafic robotisé dépendait de règles relativement simples qui sont devenues assez complexes au fil du temps. Nous suivions des paramètres différents tels que le taux auquel une adresse IP ou un utilisateur spécifique effectuait des clics et le nombre de clics réalisés au cours des dernières heures, des dernières minutes, des dernières secondes, etc.
À mesure qu'Amazon Ads se développait, le trafic robotisé et la complexité des algorithmes utilisés par les créateurs de robots prenaient de l'ampleur. Nous nous sommes rendu compte que les règles que nous avions instaurées n'étaient pas à la hauteur du défi et que les calibrer manuellement chaque année ou chaque trimestre représentait une activité plutôt chronophage.
Cela nous a amenés à nous demander si nous devions passer de règles établies manuellement à un modèle de machine learning. Cela représentait un problème à résoudre au départ, non seulement à cause de l'ampleur, mais aussi à cause de sa nature en temps réel. Nous n'avons que quelques millisecondes pour évaluer les clics au moment où ils se produisent. Nous avons construit plusieurs modèles du nom d'arbres « gradient-boosted » (à amplification de gradient) qui étaient diffusés avec un petit succès depuis quelques années. Mais, nous avons ensuite connu la vague du deep learning, qui nous a donné la possibilité de faire passer nos modèles au niveau suivant. Ces modèles continuent d'évoluer et nous concevons des techniques plus complexes pour encore mieux distinguer les clics humains des clics robotisés.
Vous avez indiqué avoir été agréablement surpris par l'ampleur et la complexité d'Amazon Ads lors de votre embauche. Qu'avez-vous constaté d'autre ?
On pourrait croire que les scientifiques sont assis dans leur coin et développent des modèles de machine learning en écrivant simplement des spécifications de déploiement qu'ils transmettent ensuite aux ingénieurs qui se trouvent à un autre endroit, mais ce n'est pas le cas. Ici, nous nous trouvons les uns à côté des autres au même étage, ce qui crée un environnement très intéressant où nous pouvons développer des idées en collaboration avec les ingénieurs.
Notre équipe a déployé des cadres qui permettent aux scientifiques de déployer facilement un modèle dans le système de production. Le cycle d'élaboration d'un concept de modèle à son déploiement en production prenait de nombreux mois, mais nous l'avons réduit à quelques semaines. Quelqu'un peut proposer une nouvelle idée fantastique ou un nouveau modèle de machine learning, le tester rapidement, le lancer en production et il sera en ligne. C'est génial, car cela permet à quelqu'un de voir directement l'incidence de son travail en très peu de temps. Je ne pense pas que ce genre d'occasion de pouvoir faire bouger les choses dans une entreprise et que cela soit mesurable en milliards de dollars se présente ailleurs.
Comment repensez-vous la publicité à votre poste ?
Alors que les navigateurs Internet continuent de s'écarter des cookies tiers, mes recherches se sont orientées vers les publicités contextuelles. Ces publicités identifient le sujet, le contenu et les mots-clés principaux d'une page web et affichent la publicité la plus adaptée en fonction de ces informations. C'est de cela dont nous sommes responsables chez Amazon : nous assurer que les annonceurs qui nous font confiance continuent de profiter des mêmes performances qu'avant.
Je suis ravi que nous stimulions l'innovation dans l'espace des publicités contextuelles en utilisant des techniques d'IA de pointe afin de proposer la meilleure expérience aussi bien aux annonceurs qu'aux utilisateurs.