논문의 이면: 로봇 광고 클릭을 감지하는 Anand Muralidhar

아마존은 고객 신뢰를 최우선으로 생각하기 때문에 플랫폼에서 허위 광고 클릭 수가 발생하는 것을 허용하지 않습니다. 사람이 광고를 클릭하는 것처럼 행동하는 봇을 프로그래밍하는 악의적인 공격자의 실력이 점점 더 정교해짐에 따라 아마존 광고는 보안을 강화했습니다. 그 결과 이 기사와 Association for the Advancement of Artificial Intelligence의 연례 정회의 일부인 2023 Conference on Innovative Applications of Artificial Intelligence에서 발표된 논문에 기재된 모델이 탄생했습니다.
University of Illinois Urbana-Champaign에서 전기 및 컴퓨터 공학 박사 학위를 받은 주저자이자 아마존 광고 수석 과학자 Anand Muralidhar가 이 논문과 현재 진행하고 있는 연구에 대해 이야기합니다.
어떻게 아마존 광고에 입사하셨나요?
솔직히 처음에는 아마존 광고가 무슨 일을 하는 회사인지 잘 몰랐습니다. 2016년에 저는 스타트업을 정리하고 머신 러닝 모델을 연구할 수 있는 직장을 찾고 있었는데 그때 이 회사를 발견했습니다. 규모나 복잡성에 대해 전혀 모른 채 시작했기 때문에 합류하고 나서 깜짝 놀랐습니다.
어떤 연구 분야에 집중하고 계신가요?
제 연구 분야는 점차 발전했습니다. 저는 아마존 커리어의 75%를 로봇 트래픽 탐지를 연구하면서 보냈습니다. 지난 몇 년 동안에는 컨텍스트 광고를 연구하기 시작했습니다. 아마존 광고는 사용자가 보고 있는 웹페이지 또는 앱의 콘텐츠를 파악하고 이에 걸맞은 광고를 표시하려고 하기 때문에 이는 중요한 연구 분야입니다. 예를 들어 초콜릿 케이크 레시피를 알려주는 페이지에는 초콜릿 케이크와 관련된 광고(예: 베이킹 팬, 버터, 초콜릿 칩 등)가 게재됩니다.
로봇 트래픽이란 무엇이며 이는 왜 발생하나요?
Amazon.com에는 매일 수백만 번의 클릭 수를 획득하는 수십억 개의 광고가 게재되며, 광고주는 사용자가 광고를 클릭할 때마다 비용을 지불합니다. 인터넷에는 이런 시스템을 악용하려는 일부 파렴치한 조직이 존재하며 이들은 광고를 클릭하는 로봇을 만듭니다.
광고를 클릭하는 로봇을 만드는 데에는 여러 가지 이유가 있습니다. 한 손목 시계 셀러의 광고 예산을 소진하고 싶다고 가정해 보겠습니다. 아마존에서 시계를 검색해서 이 셀러의 시계 광고가 표시될 때마다 로봇이 이를 클릭하면 실제 고객이 광고를 보지 않았음에도 이 셀러의 광고 예산은 빠르게 고갈됩니다. 로봇 트래픽의 또 다른 예로는 검색어와 관련성이 더 높은 다른 광고가 존재함에도 불구하고 로봇이 클릭을 통해 다른 상품 광고의 순위를 높이는 경우가 있습니다. 이러면 머신 러닝 시스템이 정확한 판단을 내릴 수 없으며 의도치 않게 순위가 올라갈 수 있습니다.
이와 같은 로봇 제작자의 실력은 매우 정교해지고 있으며 알고리즘을 계속 개선하고 발전시키고 있습니다.
당신의 논문 Real-Time Detection of Robotic Traffic in Online Advertising은 이 문제를 어떻게 해결하나요?
제 논문은 이와 같은 로봇 트래픽을 식별하는 머신 러닝 모델인 SLIDR(slice-level detection of robots)에 대해 설명합니다. SLIDR은 실시간으로 실행되며 광고를 조회하는 사용자가 Amazon.com에서 클릭하는 모든 요소를 살펴봅니다. 사람이 클릭했는지, 로봇이 클릭했는지 파악하며 로봇이 클릭한 경우 광고주에게 비용을 청구하지 않습니다.
SLIDR은 2021년에 배포되었으며 매일 수천만 건의 클릭 수와 수십억 건의 노출수를 처리합니다. 현재 누구나 딥 러닝 모델을 배포하고 있기 때문에 엄청난 성과가 아닌 것처럼 보일 수 있습니다. 하지만 2020년에 이 모델을 시작했을 때는 Amazon.com에서 이만한 규모를 갖춘 모델은 거의 처음이었으며 저희는 상당한 장애물과 마주했습니다.
SLIDR 모델은 데스크탑, 모바일 앱 또는 모바일 웹과 같은 다양한 기기를 통해 들어오는 트래픽을 살펴봅니다. 시스템 퍼포먼스를 극대화하기 위해서는 이를 모두 서로 다른 방식으로 처리해야 했으며 이를 위한 몇 가지 기술을 고안했습니다. 또한 시간이 지남에 따라 이러한 시스템을 프로덕션 환경에 배포할 때 발생할 수 있는 문제를 방지하고, 항상 페일 세이프 모드를 유지하기 위해 가드레일이 필요하다는 점을 깨달았습니다. 이 논문은 모델 아키텍처, 퍼포먼스 평가에 사용하는 메트릭의 종류, 모델이 다양한 트래픽 슬라이스에서 작동하는 방식 등 문제 설정 방법에 대한 몇 가지 세부적인 기타 기술 정보도 포함하고 있습니다.
이 연구와 연구의 영향력은 어떤 점에서 흥미로운가요?
SLIDR은 개입하지 않았다면 낭비되었을 광고주 수익을 절약합니다.
또 다른 흥미로운 점은 규모입니다. 아마존 광고 시스템의 규모와 일치하는 시스템은 찾아보기 어렵습니다. 빅 데이터를 위한 모델을 구축한다고 해도 실제로 이와 같은 규모로 실행하지는 않습니다.
상상할 수도 없는 규모의 데이터를 다룬다는 점은 아마존 광고에서 일할 때 누릴 수 있는 멋진 점 중 하나입니다. 저희는 하루에 수십억 개의 레코드를 처리하는데, 한 달이 지나면 엄청난 양의 데이터가 쌓입니다. 따라서 견고하고 매우 효율적이며 면밀히 모니터링할 수 있는 모델을 구축해야 합니다. 또한 저희는 머신 러닝을 사용하므로 선택한 메트릭을 바탕으로 퍼포먼스를 보장할 수 있어야 합니다.
이러한 조건으로 인해 상당히 도전적이고 흥미로운 작업 환경이 만들어집니다. 결과적으로 저희는 데이터에서 수많은 이상한 점을 발견하며 이는 이론적 연구 또는 개념 증명만으로는 확인할 수 없습니다. 모델 퍼포먼스의 작은 변화마저도 아마존 수익이나 고객 예산에 큰 영향을 미칠 수 있는 규모를 갖췄을 때만 복잡성이 분명해집니다.
이 연구로 인해 프로덕션 프레임워크 측면에서 딥 러닝 모델 배포 방법에 대한 자신감도 확보했습니다. 이전까지는 경험이 전혀 없었고 어떻게 나아가야 할지 잘 몰랐습니다. 이제 저희는 딥 러닝 모델을 대규모로 실행하는 데 매우 익숙해졌으며, 이는 상당히 큰 발전이었습니다.
SLIDR 모델로 결정한 이유는 무엇인가요?
로봇 트래픽을 식별하기 위해 구축한 초기 솔루션 중 일부는 비교적 간단한 규칙을 기반으로 했으며 시간이 지남에 따라 이는 점점 더 복잡해졌습니다. 저희는 특정 IP 주소 또는 사용자의 클릭 속도, 지난 몇 시간, 분, 초 동안 발생한 클릭 수 등 다양한 매개 변수를 추적했습니다.
아마존 광고가 성장함에 따라 로봇 트래픽의 규모가 늘어나고, 로봇 제작자가 사용하는 알고리즘도 더 복잡해졌습니다. 도입한 규칙이 직면한 문제에 맞게 확장할 수 없다는 점을 깨달았고, 매년 또는 분기마다 수동으로 이를 교정하는 일은 상당한 시간이 소요되는 작업이었습니다.
따라서 저희는 규칙을 직접 정하기보다는 머신 러닝 모델로 전환해야 할지 고민했습니다. 모델의 규모뿐만 아니라 실시간 특성 때문에 처음에는 문제가 됐습니다. 클릭 발생부터 평가까지 몇 밀리초 만에 완료해야 했습니다. 저희는 그래디언트 부스트 트리라는 모델을 구축했으며 이는 몇 년 동안 꽤 성공적으로 작동했습니다. 하지만 딥러닝의 등장은 이 모델을 한 단계 더 발전시킬 기회를 제공했습니다. 이러한 모델은 계속 발전하고 있으며, 저희는 실제 사용자 클릭과 로봇 클릭을 더 잘 구별할 수 있는 더 복잡한 기술을 개발하고 있습니다.
아마존에 입사했을 때 아마존 광고의 규모와 복잡성에 놀랐다고 말씀하셨습니다. 또 어떤 점이 눈에 띄었나요?
과학자는 과학자끼리 앉아서 머신 러닝 모델을 개발하고 배포를 위한 사양을 작성해서 저 멀리 있는 엔지니어에게 건네준다고 생각하실 수도 있습니다. 하지만 이는 사실이 아닙니다. 저희 아마존은 모두가 같은 층에서 근무하며 바로 옆에 앉아 있기 때문에 엔지니어와 함께 아이디어를 주고 받을 수 있는 매우 흥미로운 환경을 제공합니다.
저희 팀은 과학자가 최소한의 노력으로 프로덕션 시스템에 모델을 배포하기 위한 프레임워크를 구축할 수 있도록 지원합니다. 과거에는 모델 개념 구상부터 프로덕션 환경 배포까지 수개월에 걸렸지만 이제는 몇 주로 단축되었습니다. 환상적인 새로운 아이디어 또는 새로운 머신 러닝 모델을 고안하고, 빠르게 테스트하고, 프로덕션에 출시한 후 실행합니다. 덕분에 아주 짧은 기간 내에 본인의 성과가 미친 효과를 확인할 수 있어서 환상적입니다. 이처럼 수십억 달러 규모의 비즈니스를 진정으로 발전시킬 기회는 다른 회사에서는 찾아볼 수 없다고 생각합니다.
현재 직책에서는 어떻게 광고를 재구상하고 계신가요?
인터넷 브라우저가 타사 쿠키를 사용 중단함에 따라 저는 컨텍스트 광고를 연구하고 있습니다. 이러한 광고는 웹페이지의 주요 주제, 콘텐츠, 상위 키워드를 식별하고 이 정보를 기반으로 가장 적합한 광고를 보여줍니다. 아마존을 신뢰하는 광고주에게 계속해서 이전과 동일한 퍼포먼스를 제공하는 것은 아마존의 책임입니다.
최첨단 AI 기술을 사용하여 광고주와 사용자 모두에게 최고의 경험을 제공함으로써 컨텍스트 광고 분야의 혁신을 주도하고 있다는 사실이 기쁩니다.