काग़ज़ के पीछे: आनंद मुरलीधर एडवरटाइज़िंग पर रोबोटिक क्लिक का पता लगाते हैं

Amazon के लिए कस्टमर का भरोसा प्राथमिकता है, इसलिए इसके प्लेटफ़ॉर्म में एडवरटाइज़िंग पर धोखाधड़ी वाले क्लिक की कोई गुंजाइश नहीं है. चूँकि, बुरे ऐक्टर ऐड पर क्लिक करने वाले इंसानों का रूप धरने के लिए प्रोग्रामिंग बॉट में ज़्यादा बेहतर हो गए हैं, इसलिए Amazon Ads ने अपनी सुरक्षा को बढ़ा दिया है. इसके नतीजे के तौर पर बनाए गए मॉडल के बार में इस लेख में और पेपर में बताया गया है, जिसे आर्टिफिशियल इंटेलिजेंस के इनोवेटिव एप्लिकेशन पर 2023 के कॉन्फ़्रेंस में प्रज़ेंट किया गया था, जो एसोसिएशन फ़ॉर द एडवांसमेंट ऑफ़ आर्टिफ़िशियल इंटेलिजेंस की सालाना बैठक का हिस्सा है.
इलिनोइस अर्बाना-शैम्पेन विश्वविद्यालय से इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग में पीएचडी करने वाले मुख्य लेखक और Amazon Ads के प्रिंसिपल साइंटिस्ट आनंद मुरलीधर यहाँ पेपर और अपने मौजूदा रिसर्च के बारे में बात करते हैं.
आप Amazon Ads में क्यों शामिल हुए?
सच कहूँ, तो शुरुआत में मैं इस बारे में नहीं जानता था कि Amazon Ads किस तरह के काम करता है. 2016 में, मैं एक स्टार्टअप पर अपने काम को ख़त्म कर रहा था और ऐसी भूमिका की तलाश कर रहा था जो मुझे मशीन लर्निंग मॉडल पर काम करने की सुविधा दे और यह भूमिका सामने आई. मैं स्केल या जटिलता के बारे में विचार किए बिना इसमें शामिल हो गया. हालाँकि, टीम में शामिल होने के बाद यह स्वागत के योग्य अचरज में डालने वाला था.
रिसर्च के किन क्षेत्रों पर आपका फ़ोकस है?
रिसर्च पर मेरा फ़ोकस बदला है. मैंने अपने Amazon करियर का शायद पहला तीन-चौथाई हिस्सा रोबोटिक ट्रैफ़िक का पता लगाने में बिताया. पिछले कुछ सालों में, मैंने संदर्भ के अनुसार एडवरटाइज़िंग पर ध्यान देना शुरू कर दिया है. Amazon Ads के लिए यह फ़ोकस का अहम क्षेत्र है, क्योंकि हम किसी वेब पेज या ऐप के कॉन्टेंट को समझने की कोशिश करते हैं, जिसे यूज़र देख रहा है और फिर उससे मैच करने वाले ऐड दिखाते हैं. तो, अगर आप ऐसे पेज पर हैं, जो चॉकलेट केक की रेसिपी के बारे में बात कर रहा है, तो मैं आपको चॉकलेट केक से सम्बंधित ऐड दिखाना चाहता हूँ, शायद बेकिंग पैन, मक्खन, चॉकलेट चिप्स वग़ैरह.
रोबोटिक ट्रैफ़िक क्या है और ऐसा क्यों होता है?
Amazon.com पर हम हर दिन अरबों ऐड दिखाते हैं, जिन पर लाखों क्लिक आते हैं और जब भी कोई किसी ऐड पर क्लिक करता है, हम एडवरटाइज़र को चार्ज करते हैं. वेब पर कुछ बेईमान एलिमेंट हैं जो इसका फ़ायदा उठाना चाहते हैं और वे इन ऐड पर क्लिक करने के लिए रोबोट बनाते हैं.
ऐड पर क्लिक करने के लिए रोबोट बनाने की कई वजहें हो सकती हैं. मान लीजिए कि आप कलाई घड़ियों के सेलर के एडवरटाइज़िंग बजट को ख़त्म करना चाहते हैं. जब कोई Amazon पर घड़ियों को सर्च करता है और सेलर की घड़ियाँ ऐड के रूप में दिखाई देती हैं, अगर कोई रोबोट ऐसे हर ऐड पर क्लिक करता है, तो सेलर का एडवरटाइज़िंग बजट बहुत जल्द ख़त्म हो जाएगा और कोई भी इंसान कभी भी ऐड नहीं देखेगा. रोबोटिक ट्रैफ़िक का एक और उदाहरण यह है कि जब कोई रोबोट क्लिक के ज़रिए किसी प्रोडक्ट के लिए ऐड की रैंकिंग बढ़ाता है, भले ही अन्य ऐड किसी सर्च क्वेरी के लिए ज़्यादा सम्बंधित हों. यह मशीन लर्निंग सिस्टम को धोखे में रख सकता है और अनजाने में रैंकिंग को बढ़ावा दे सकता है.
जो लोग इन रोबोट के साथ आते हैं वे बहुत बेहतर हो गए हैं और वे अपने एल्गोरिदम को सुधारते रहते हैं और उसमें बदलाव करते रहते हैं.
आपका पेपर ऑनलाइन एडवरटाइज़िंग में रोबोटिक ट्रैफ़िक का रियल-टाइम में पता लगाना, इस समस्या को किस तरह हल करता है?
यह ख़ास पेपर ऐसे रोबोटिक ट्रैफ़िक की पहचान करने के लिए मशीन लर्निंग मॉडल के बारे में बात करता है: स्लाइस-लेवल डिटेक्शन ऑफ़ रोबोट्स (SLIDR). SLIDR रियल टाइम में चलता है और यह Amazon.com पर किसी ऐड को देखने वाले किसी व्यक्ति द्वारा किए गए हर क्लिक पर नज़र डालता है. यह पता लगाता है कि क्लिक इंसान ने किया है या रोबोट ने और अगर यह रोबोट से आया है, तो हम एडवरटाइज़र को चार्ज नहीं करते हैं.
SLIDR को 2021 में तैनात किया गया था और यह हर दिन लाखों क्लिक और कुछ बिलियन इम्प्रेशन प्रोसेस करता है. आज, किसी डीप लर्निंग मॉडल को लागू करना इतनी बड़ी बात नहीं लग सकती है, क्योंकि हर कोई ऐसा करता है. लेकिन, जब हमने इसे 2020 में शुरू किया था, तो शायद यह Amazon.com पर इस तरह के स्केल पर चलने वाला पहला ऐसा मॉडल था और यह हमारे लिए काफ़ी चुनौती भरा था.
SLIDR मॉडल अलग-अलग डिवाइसों जैसे कि डेस्कटॉप, मोबाइल ऐप या मोबाइल वेब से आने वाले ट्रैफ़िक के हिस्सों को देखता है. सिस्टम से ज़्यादा से ज़्यादा परफ़ॉर्मेंस पाने के लिए इन सभी को अलग तरह से संभालने की ज़रूरत है और हम ऐसा करने के लिए कुछ तकनीकों के साथ आए हैं. इसके अलावा, हमें समय के साथ अहसास हुआ कि हमें यह पक्का करने के लिए गार्डरेल की ज़रूरत है कि जब हम इन सिस्टम को प्रोडक्शन में लागू करते हैं, तो कुछ भी ग़लत नहीं होता है और हमारे पास हमेशा विफ़ल होने के लिहाज़ से सुरक्षित मोड होता है. पेपर में कुछ अन्य तकनीकी जानकारियाँ भी शामिल हैं कि हम समस्या को किस तरह सेट अप करते हैं: मॉडल आर्किटेक्चर, परफ़ॉर्मेंस का मूल्यांकन करने के लिए हम किस तरह के मेट्रिक का इस्तेमाल करते हैं, मॉडल ट्रैफ़िक के अलग-अलग हिस्सों पर किस तरह काम करते हैं वग़ैरह.
इस रिसर्चऔर इसके असर के बारे में क्या रोमांचक है?
SLIDR से एडवरटाइज़र का रेवेन्यू बचता है जो नहीं तो बर्बाद हो जाता.
एक और ज़रूरी बात है स्केल: ऐसे बहुत कम सिस्टम हैं जो इस सम्बंध में Amazon Ads से मैच करते हैं. यहाँ तक कि जब लोग बड़े डेटा के लिए मॉडल बनाने की बात करते हैं, तब भी वे असल में उन मॉडल को उस स्केल पर नहीं चलाते हैं.
Amazon Ads पर काम करने के बारे में यह अद्भुत चीज़ों में से एक है, आप डेटा के साथ ऐसे स्केल पर काम करते हैं जिसकी कल्पना करना बहुत मुश्किल है. हम एक दिन में अरबों रिकॉर्ड को देखते हैं और यह एक महीने में बड़ी मात्रा में डेटा बन जाता है. इसलिए, हम जिस प्रकार के मॉडल बनाते हैं, उन्हें मज़बूत, बहुत कुशल और बारीक़ी से मॉनिटर करने की ज़रूरत होती है. साथ ही, हम मशीन लर्निंग का इस्तेमाल करते हैं, इसलिए हमने जो भी मेट्रिक चुने हैं, उसके आधार पर हमें परफ़ॉर्मेंस की गारंटी भी देनी होगी.
यह सब इसे काम करने के लिए काफ़ी चुनौतीपूर्ण और रोमांचक जगह बनाता है. आख़िर में, हमें डेटा में बहुत तरह की विचित्र चीज़ें दिखाई देती है, जो आपको तब नहीं दिखाई देंगी जब आप सिर्फ सैद्धांतिक रिसर्च कर रहे हैं या अवधारणा के सबूत के साथ काम कर रहे हैं. सिर्फ़ तभी जब आप चीज़ों को इस स्केल पर चलाना शुरू करते हैं, जहाँ आपके मॉडल के परफ़ॉर्मेंस में छोटी सी हलचल भी Amazon के रेवेन्यू या कस्टमर के बजट पर भारी असर डाल सकती है, तो जटिलता स्पष्ट हो जाती है.
इस रिसर्च का एक और असर यह था कि इससे हमें इस बात पर बहुत भरोसा हुआ कि प्रोडक्शन फ़्रेमवर्क में डीप लर्निंग मॉडल को किस तरह लागू किया जाए. इससे पहले, हमें इसे करने का कोई अनुभव नहीं था और हम पक्के तौर पर यह नहीं जानते थे कि इसे किस तरह हटाया जाए. अब हम ज़रूरत के हिसाब से आसानी से डीप लर्निंग मॉडल चला सकते हैं और यह हमारे लिए लंबी छलाँग थी.
आपकी टीम ने SLIDR मॉडल को आगे बढ़ाने का फ़ैसला क्यों किया?
रोबोटिक ट्रैफ़िक की पहचान करने के लिए मेरी टीम द्वारा बनाए गए कुछ शुरुआती सोल्यूशन तुलनात्मक रूप से आसान नियमों पर आधारित थे जो समय के साथ काफ़ी जटिल हो गए. हम कई पैरामीटर को ट्रैक कर रहे थे जैसे कि वह रेट जिस पर ख़ास IP पता या यूज़र क्लिक कर रहा था और पिछले कुछ घँटों में, पिछले कुछ मिनटों में, पिछले कुछ सेकंड में कितने क्लिक किए गए थे और इसी तरह.
जैसे-जैसे Amazon Ads बढ़ता गया, वैसे-वैसे रोबोटिक ट्रैफ़िक का स्केल और रोबोट से धोखाधड़ी करने के लिए इस्तेमाल किए जा रहे एल्गोरिदम की जटिलता भी बढ़ती गई. हमने महसूस किया कि हमारे पास जो नियम थे, वे चुनौती से मैच करने के लिए स्केल नहीं कर पा रहे थे और उन्हें हर साल या शायद हर तिमाही में मैन्युअल रूप से कैलिब्रेट करना काफ़ी समय लेने वाला काम था.
इसने हमें यह पूछने के लिए प्रेरित किया कि क्या हमें हाथ से बनाए गए नियमों से मशीन लर्निंग मॉडल की तरफ़ बढ़ना चाहिए. शुरुआत में इसे हल करना समस्या थी, ना सिर्फ़ स्केल की वजह से, बल्कि रियल-टाइम की प्रकृति के कारण भी. हमारे पास क्लिक किए जाने के बाद उनका मूल्यांकन करने के लिए बस कुछ मिलीसेकंड होते हैं. हमने ग्रेडिएंट-बूस्टेड ट्री नामक कुछ मॉडल बनाए जो कुछ सालों तक काफ़ी सफलतापूर्वक चले. लेकिन, फिर हमने डीप लर्निंग वेव का अनुभव किया, जिसने हमारे मॉडल को अगले लेवल तक ले जाने का अवसर प्रदान किया. ये मॉडल लगातार विकसित हो रहे हैं और हम और ज़्यादा जटिल तकनीकें बना रहे हैं, जो इंसानी क्लिक को रोबोटिक क्लिक से और भी बेहतर तरीक़े से अलग कर सकती हैं.
जब आप शामिल हुए, तो आपने Amazon Ads के स्केल और जटिलता पर सुखद आश्चर्य होने का उल्लेख किया. आपने और क्या ग़ौर किया है?
आप सोच सकते हैं कि वैज्ञानिक अपनी जगह पर बैठकर मशीन लर्निंग मॉडल बना रहे हैं और फिर बस लागू करने के लिए स्पेसिफ़िकेशन लिख रहे हैं और इसे उन इंजीनियरों को दे रहे हैं जो कहीं और बैठे हैं. लेकिन, ऐसा होता नहीं है. यहाँ, हम सभी एक-दूसरे के ठीक बगल में एक ही मंज़िल पर बैठे हैं और यह इसे बहुत ही दिलचस्प माहौल बनाता है जहाँ हम इंजीनियरों के साथ मिलकर आइडिया पर फिर से विचार कर सकते हैं.
हमारी टीम ने ऐसे फ़्रेमवर्क बनाए हैं जो वैज्ञानिकों को कम से कम कोशिश के साथ प्रोडक्शन सिस्टम में मॉडल को लागू करने की सुविधा देते हैं. मॉडल अवधारणा के साथ आने से लेकर इसे प्रोडक्शन में लागू करने की साइकल कई महीनों तक चलती था. लेकिन, अब हमने इसे घटाकर महज़ कुछ हफ़्तों तक कर दिया है. कोई भी व्यक्ति शानदार नए आइडिया या नए मशीन लर्निंग मॉडल के साथ आ सकता है, जल्दी से इसकी टेस्टिंग कर सकता है और इसे प्रोडक्शन में लॉन्च कर सकता है और यह लाइव चल रहा होगा. यह शानदार है, क्योंकि यह किसी को बहुत ही कम समय में उनके द्वारा किए गए कामों के असर को देखने की सुविधा देता है. मुझे नहीं लगता कि इस तरह का अवसर कहीं और उपलब्ध है, जहाँ आप असल में अरबों डॉलर में मापे जाने वाले बिज़नेस को सचमुच में आगे बढ़ा सकते हैं.
आप अपनी भूमिका में किस तरह एडवरटाइज़िंग की नए सिरे से कल्पना कर रहे हैं?
चूँकि, इंटरनेट ब्राउज़र थर्ड-पार्टी कुकीज़ से दूर होते जा रहे हैं, इसलिए मेरा रिसर्च संदर्भ के अनुसार ऐड की तरफ़ चला गया है. ये ऐड किसी वेब पेज के मुख्य टॉपिक, कॉन्टेंट और टॉप कीवर्ड की पहचान करते हैं और इस जानकारी के आधार पर सबसे सही ऐड दिखाते हैं. Amazon पर यह हमारी ज़िम्मेदारी यह पक्का करना है कि जो एडवरटाइज़र हम पर अपना भरोसा रख रहे हैं, उन्हें पहले जैसा ही परफ़ॉर्मेंस मिलता रहे.
मैं उत्साहित हूँ कि हम एडवरटाइज़र और यूज़र दोनों के लिए बेहतरीन अनुभव डिलीवर करने के लिए नई AI तकनीकों का इस्तेमाल करके संदर्भ के अनुसार ऐड के क्षेत्र में इनोवेशन कर रहे हैं.