Makalenin ötesinde: Anand Muralidhar reklamlardaki robot kaynaklı tıklamaları tespit ediyor

Müşteri güveni Amazon için önceliktir. Bu nedenle platformlarında, reklamlara yapılan sahte tıklamalara izin vermez. Kötü niyetli kişiler, reklamlara tıklayan insanları taklit eden botlar programlama konusunda daha gelişmiş yöntemler kullandıkça Amazon Ads de güvenliğini üst seviyelere çıkardı. Sonuçta ortaya çıkan model bu makalede ve Association for the Advancement of Artificial Intelligence (Yapay Zeka Gelişimi Derneği) tarafından düzenlenen yıllık toplantı kapsamındaki Innovative Applications of Artificial Intelligence (Yapay Zekanın İnovatif Uygulamaları) başlıklı 2023 konferansında sunulan bir raporda anlatılmaktadır.
Doktorasını Illinois Urbana-Champaign Üniversitesi'nde elektrik ve bilgisayar mühendisliği alanında yapan baş yazar ve Amazon Ads baş bilim uzmanı Anand Muralidhar, bu yazıda rapor ve hâlihazırdaki araştırmasını anlatıyor.
Amazon Ads'e neden katıldınız?
Açıkçası başlangıçta Amazon Ads'in yaptığı iş hakkında bilgim yoktu. 2016'da start-up çalışmamı sonlandırır ve makine öğrenimi modelleri üzerinde çalışmama olanak tanıyacak bir iş ararken karşıma bu görev çıktı. Ölçeği veya karmaşıklığını düşünmeden bunu kabul ettim, ekibe katılmam hoş bir sürpriz olmuştu.
Odağınızda hangi araştırma alanları yer alıyor?
Araştırma odağım değişti. Amazon kariyerimin yaklaşık ilk üç çeyreğinde robot kaynaklı trafiğin tespit edilmesi ile ilgili çalıştım. Son birkaç yıldır içeriğe dayalı reklamlarla ilgilenmeye başladım. Bir web sayfasının veya uygulamanın içeriğini anlamaya ve ardından bununla ilgili reklamlar göstermeye çalıştığımız için bu, Amazon Ads açısından önemli bir odak noktasıdır. Örneğin, çikolatalı pasta tarifi verilen bir sayfayı ziyaret ettiğinizde çikolatalı pastayla ilgili olabilecek fırın tepsisi, tereyağı, çikolata parçaları gibi ürünlerin reklamlarını göstermek isteriz.
Robot kaynaklı trafik nedir ve neden oluyor?
Amazon.com'da her gün milyonlarca tıklama alan milyarlarca reklam gösteriyoruz ve bir reklama tıklama gerçekleştiğinde her seferinde reklamverenlerden ücret tahsil ediyoruz. İnternette bundan yararlanmak isteyen bazı kötü niyetli kişiler var ve bu reklamlara tıklayacak robotlar geliştiriyorlar.
Reklama tıklayan bir robot geliştirmenin çeşitli nedenleri olabilir. Bir kol saati satıcısının reklam bütçesini tüketmek istediğinizi varsayalım. Birisi Amazon'da saat araması yapıyorsa ve satıcının saatleri reklam olarak gösteriliyorsa, bir robot da bu reklamların her birine tıklamışsa söz konusu satıcının reklam bütçesi, reklamlar hiç kimseye gösterilmeden kısa süre içinde tükenir. Robot kaynaklı trafiğin amacına bir başka örnek de bir robotun, arama sorgusuyla daha ilgili diğer reklamlar olmasına rağmen bir ürünün reklam sıralamasını yükseltmek olarak gösterilebilir. Bu, makine öğrenimi sistemlerinde karmaşa yaratabilir ve sıralamaları yanlışlıkla yükseltebilir.
Bu robotları oluşturan kişiler çok gelişmiş yöntemler kullanmaya başladılar ve algoritmalarını geliştirmeye ve dönüştürmeye devam ediyorlar.
Real-Time Detection of Robotic Traffic in Online Advertising (Çevrim içi reklamcılıkta robot kaynaklı trafiğin gerçek zamanlı tespiti) başlıklı raporunuzda bu sorun nasıl ele alınıyor?
Raporda, bu tür robot kaynaklı trafiği tespit etmek için kullanılan bir makine öğrenimi modelinden, robotların dilim seviyesinde tespitinden (SLIDR) bahsediliyor. SLIDR, gerçek zamanlı olarak çalışır ve Amazon.com'da reklam görüntüleyen herkesin gerçekleştirdiği her tıklamayı kontrol eder. Tıklamanın insan veya robot tarafından gerçekleştirilip gerçekleştirilmediğini belirler. Tıklama, robot kaynaklı ise reklamverenden ücret tahsil etmeyiz.
2021'de dağıtılan SLIDR her gün milyonlarca tıklama ile milyarlarca gösterimi işliyor. Günümüzde derin öğrenme modeli, herkes tarafından kullanıldığından önemli gibi görünmeyebilir. Ancak 2020'de bunu kullanmaya başladığımızda, büyük ihtimalle Amazon.com'da böyle bir ölçekte çalışan ilk modeldi ve bizim açımızdan çok zorlu bir görevdi.
SLIDR modeli, masaüstü, mobil uygulama veya mobil web gibi farklı cihazlardan gelen trafik dilimlerini inceler. Sistemden maksimum performansı elde etmek için, tüm gereksinimlerinin farklı biçimlerde karşılanması gerektiğinden bu amaçla bazı teknikler geliştirdik. Ayrıca zaman içinde, bu sistemleri üretime dağıtırken hatalarla karşılamamızı önleyen ve sistemlerin her zaman sorunsuz çalışmasını sağlayan sınırlara ihtiyacımız olduğunu fark ettik. Rapor, sorunu nasıl tanımladığımızla ilgili olarak model mimarisi, performansı değerlendirmek için kullandığımız istatistik türleri, modelin farklı trafik dilimlerin çalışma biçimi gibi diğer teknik detayları da içeriyor.
Bu araştırmanın ve etkisinin heyecan verici yönü nedir?
SLIDR reklamverenin, modeli kullanmadığı takdirde boşa harcayabileceği gelirlerden tasarruf etmesini sağlar.
Diğer önemli bir unsur da ölçektir: Bu konuda Amazon Ads ile karşılaştırabilecek çok az sistem var. Büyük veriye yönelik modeller oluşturmak söz konusu olduğunda bile gerçekten bu ölçekte modeller çalıştırılmaz.
Amazon Ads'de çalışmanın harika avantajlarından biri de bu. Hayal edilemeyecek ölçekte verilerle çalışıyorsunuz. Bir günde milyarlarca kaydı işliyoruz ve bunlar bir ay içinde devasa miktarda bir veri hâline geliyor. Bu nedenle oluşturduğumuz modellerin sağlam ve verimli olmasının yanı sıra yakından takip edilmesi gerekir. Aynı zamanda makine öğrenimi de kullandığımızdan seçtiğimiz istatistiklere bağlı olarak performansı da garanti etmemiz gerekir.
Bunların tümü işimizi oldukça zorlu ve heyecanlı hâle getiriyor. Verilerde, teorik araştırmalar yaparken veya kavram kanıtı üzerinde çalışırken göremeyeceğiniz türden çok sayıda tuhaflık görüyoruz. Sadece modelinizin performansındaki küçük bir hareketin, Amazon'un gelirinde veya müşterinin bütçesine büyük etkiye sahip olduğu böyle bir ölçekte çalışmaya başladığınızda, karmaşıklık görünür geliyor.
Bu araştırmanın etkilerinden biri de bize, derin öğrenme modellerini üretim çerçevesinde nasıl dağıtılacağına dair oldukça fazla güven kazandırmasıydı. Daha önce bununla ilgili hiç deneyimimiz yoktu ve başaracağımızdan emin değildik. Artık derin öğrenme modellerini uygun ölçekte çalıştırma konusunda çok rahatız ve bu, bizim için çok büyük bir sıçramaydı.
Ekibiniz neden SLIDR modelini takip etmeye karar verdi?
Ekibimin, robot kaynaklı trafiği tespit etmek için başlangıçta ürettiği çözümlerden bazıları nispeten basit kurallara dayanıyordu ancak bu kurallar zaman içinde çok karmaşık hâle geldi. Belirli bir IP adresinin veya kullanıcının tıklama yapma hızını ve son birkaç saatte, birkaç dakikada, birkaç saniyede yapılan tıklama sayısı gibi çeşitli parametreleri izliyorduk.
Amazon Ads büyüdükçe robot kaynaklı trafiğin ölçeği de büyüdü ve robotları kullanan kişilerin algoritmaları daha gelişmiş hâle geldi. Belirlediğimiz kuralların bu zorluğa uygun şekilde ölçeklenmediğini ve bu kuralların her yıl veya her çeyrekte manuel olarak kalibre edilmesinin çok zaman alan bir uygulama olduğunu gördük.
Bu durum, manuel olarak oluşturulan kurallardan makine öğrenimi modeline geçmemiz gerekip gerekmediğini sorgulamamıza neden oldu. Bu, sadece ölçek nedeniyle değil aynı zamanda gerçek zamanlılık unsuru nedeniyle de başlangıçta çözülmesi gereken bir sorundu. Gerçekleşen tıklamaları değerlendirmek için yalnızca birkaç milisaniyemiz vardı. Birkaç yıl boyunca başarıyla çalışan ve Gradient boosted ağaçlar adı verilen bazı modeller oluşturduk. Ancak derin öğrenme dalgasıyla karşılaştığımızda bu, modellerimizi bir üst seviyeye çıkarma fırsatı sundu. Bu modeller gelişmeye devam ediyor. İnsan kaynaklı tıklamaları, robot kaynaklı tıklamalardan daha iyi ayırabilen daha gelişmiş teknikler oluşturuyoruz.
Ekibe katıldığınızda Amazon Ads'in ölçeği ve karmaşıklığının sizin için hoş bir sürpriz olduğundan bahsetmiştiniz. Başka ne fark ettiniz?
Bilim insanlarının bir köşede oturup makine öğrenimi modelleri geliştirdiklerini ve ardından dağıtım açıklamalarını yazdıklarını ve bunu başka bir yerde oturan mühendislere verdiklerini düşünüyor olabilirsiniz. Ancak öyle değil. Burada hepimiz aynı katta yan yana oturuyoruz. Bu, mühendislerle birlikte fikirler üzerinde çalışabileceğimiz çok ilginç bir ortam sunuyor.
Ekibimiz, bilim insanlarının bir modeli çok kolay bir şekilde üretim sisteminde dağıtmasını sağlayan çerçeveler oluşturdu. Bir modelin kavramsal olarak ortaya çıkması ve bunun üretimde dağıtım döngüsü aylarca sürüyordu ancak artık bunu birkaç haftaya indirdik. Birisi harika yeni bir fikir veya yeni bir makine öğrenimi modeli bulabilir, bunu hızla test edebilir, üretimde kullanıma sunabilir ve böylece model yayınlanmış olur. Bu harika bir şey; kişinin ortaya koyduğu çalışmanın yarattığı etkiyi çok kısa bir sürede görmesine olanak sağlıyor. Milyarlarca dolarla ölçülen bir işte gerçek anlamda etki yaratmanıza olanak sağlayan böyle bir fırsatı başka bir yerde bulamayacağınızı düşünüyorum.
Bu rolde çalışırken reklamcılığı nasıl yeniden tasarlıyorsunuz?
İnternet tarayıcıları üçüncü taraf çerezlerinden uzaklaştıkça araştırmam da içeriğe dayalı reklamlara yöneldi. Bu reklamlar bir web sayfasının ana konusunu, içeriğini ve en uygun anahtar kelimelerini tespit ediyor ve bu bilgilere göre en uygun reklamları gösteriyor. Amazon'daki sorumluluğumuz, bize güvenen reklamverenlerin her zaman aynı performansı almasını sağlamaktır.
Hem reklamverene hem de kullanıcıya en iyi deneyimi sunmak için son teknoloji yapay zeka tekniklerini kullanarak içeriğe dayalı reklamlar alanında yarattığımız inovasyonlar beni heyecanlandırıyor.