AI Strange Tales

Google DeepDream: शुरुआती AI को हर जगह कुत्ते और आँखें क्यों दिखती थीं

लेखक: The Unsolved Report Editorial Team · प्रकाशित 2019-01-14

2015 में Google का एक न्यूरल नेटवर्क बादलों, पेड़ों और आसमान में कुत्ते और आँखें देखने लगा। पढ़िए DeepDream, पहली वायरल AI कला, और उसका अनसुलझा सवाल।

साझा करें

ज़्यूरिख़ के एक अपार्टमेंट में आधी रात बस बीती ही थी — तारीख़ 18 मई, 2015। Google का एक नौजवान इंजीनियर, अलेक्ज़ेंडर मोर्डविंटसेव, अचानक हड़बड़ाकर जाग गया। उसे यक़ीन था कि उसने कोई आवाज़ सुनी है। पर कोई आवाज़ थी ही नहीं। अब नींद उड़ चुकी थी, और दिमाग़ में वही एक ख़याल घूम रहा था जिसे वह हफ़्तों से चबा रहा था। वह सीधा अपने कंप्यूटर पर बैठ गया और टाइप करने लगा।

रात के दो बजते-बजते उसके हाथ कुछ लग चुका था। उसने एक आम-सी तस्वीर एक न्यूरल नेटवर्क में डाली, मशीन से कहा कि उसे जो भी दिखे उसे और ज़्यादा उभार दे, और इंतज़ार किया। जो जवाब लौटकर आया वह किसी डरावने सपने जैसा था: आसमान कुत्तों की थूथनों से रेंग रहा था, पेड़ों पर आँखें उग आई थीं, बादल जमकर ऐसे जीवों में बदल रहे थे जिनके बहुत सारे चेहरे थे। उसने यह तस्वीर Google के अंदरूनी सोशल नेटवर्क पर डाली और सोने चला गया।

कुछ ही हफ़्तों में पूरा इंटरनेट उन्हीं भ्रम भरी कुत्तों की तस्वीरों से भर जाने वाला था। पर पेच यह है — आज तक कोई पूरी तरह सहमत नहीं कि मशीन असल में "देख" क्या रही थी। चलिए, गहराई में उतरते हैं।

Izquierda: Foto original de Zachi Evenor. Derecha: procesado por Günther Noack, Ingeniero de Software — Wikimedia Commons, Zachi Evenor,Günther Noack (CC BY-SA 3.0)

जो बातें दस्तावेज़ों में दर्ज हैं

इस तकनीक को आधिकारिक नाम 18 जून, 2015 को मिला, जब Google ने एक ब्लॉग पोस्ट छापी — "Inceptionism: Going Deeper into Neural Networks" — जिसका श्रेय मोर्डविंटसेव के साथ-साथ उनके साथियों क्रिस्टोफ़र ओला और माइक टायका को दिया गया (Google Research)।

अब असली कमाल की बात, और यह बेहद सरल है। एक न्यूरल नेटवर्क आमतौर पर तस्वीरों को पहचानने के लिए इस्तेमाल होता है: आप उसे एक फ़ोटो दिखाते हैं, वह कहता है "यह केला है।" DeepDream उसी मशीन को उल्टा चलाता है। आप उसे एक फ़ोटो दिखाकर, मानो कहते हैं, "इसमें तुझे जो भी दिखता है, उसे और बढ़ाकर दे।" नेटवर्क पैटर्न के हल्के-से इशारे ढूँढता है, उन्हें मज़बूत करता है, फिर देखता है, फिर और मज़बूत करता है। यही चक्कर दर्जनों बार। धुँधले इशारे तेज़, अटल और नामुमकिन चीज़ों में बदल जाते हैं (Google Research)।

मोर्डविंटसेव कला बनाने की कोशिश नहीं कर रहे थे। वह एक नए इंजीनियर थे जो यह कुरेद रहे थे कि ये नेटवर्क अंदर से असल में काम कैसे करते हैं। "न्यूरल नेटवर्क ऐसे सिस्टम हैं जो तस्वीरों को वर्गीकृत करने के लिए बनाए गए हैं," उन्होंने बाद में कहा। "मैं इससे वह काम करवाने की कोशिश कर रहा हूँ जिसके लिए यह बना ही नहीं है, जैसे पैटर्न के कुछ निशान पकड़ना" (Artnome)।

तो कुत्ते ही क्यों? इतने सारे कुत्ते क्यों? यह हिस्सा सचमुच दस्तावेज़ों में दर्ज है, कोई अंदाज़ा नहीं। मोर्डविंटसेव ने जो नेटवर्क इस्तेमाल किया, उसे ImageNet पर ट्रेन किया गया था — लेबल लगी तस्वीरों का एक विशाल भंडार। और उस डेटासेट का एक मशहूर हिस्सा AI से कहता है कि वह कुत्तों की 120 अलग-अलग नस्लों को पहचाने — बारीक काम, जैसे बीगल बनाम बासेट हाउंड। यह परीक्षा पास करने के लिए नेटवर्क को कुत्ते के अंगों का दीवाना बनना पड़ा: कान, थूथन, और सबसे बढ़कर आँखें। अब जब आप ऐसे नेटवर्क से कहते हैं "और ज़्यादा देख," तो वह वही ढूँढता है जो उसे सबसे अच्छे से आता है (Fast Company; Artnome)।

आँखें हर जगह उभरती हैं, और इसकी एक मिलती-जुलती वजह है: जानवरों की पूरी दुनिया में, आँख उन सबसे भरोसेमंद और बार-बार दोहराई जाने वाली आकृतियों में से एक है जिसे कोई दृष्टि-प्रणाली पकड़ सकती है। नेटवर्क ने सीख लिया था कि "आँख जैसे" धब्बे एक बढ़िया सुराग़ हैं, इसलिए उसने उन्हें दिल खोलकर बिखेर दिया।

जुलाई 2015 में Google ने इसका कोड GitHub पर ओपन-सोर्स कर दिया (github.com/google/deepdream)। लगभग रातों-रात, DeepDream शायद पहला ऐसा AI इमेज जनरेटर बन गया जो आम लोगों तक पहुँचा — डीपफ़ेक से लेकर आज के तस्वीरें बनाने वाले चैटबॉट तक, हर चीज़ का वह नशीला पुरखा। शोधकर्ता अब इस असर को "एल्गोरिदमिक पैरिडोलिया" कहते हैं: वही दिमाग़ी गड़बड़ी जिसकी वजह से आपको दीवार के बिजली के सॉकेट में चेहरा दिख जाता है, पर यहाँ यह एक मशीन के अंदर हो रही है (Wikipedia: Caffe))।

DeepDream image which started with white noise. — Wikimedia Commons, MartinThoma (CC0)

असली अनसुलझा सवाल

अब बात वहाँ पहुँचती है जहाँ ज़मीन फिसलने लगती है, और ईमानदार लोग आपस में असहमत हैं।

हम कह सकते हैं कि DeepDream क्या करता है। हम यह भी कह सकते हैं कि वह कुत्तों और आँखों का इतना दीवाना क्यों है — यह तो ट्रेनिंग डेटा बोल रहा है। पर एक गहरा सवाल है जिससे शोधकर्ता आज भी जूझ रहे हैं: क्या ऐसी कोई तस्वीर हमें सचमुच बताती है कि नेटवर्क "क्या सोचता है," या सिर्फ़ यह दिखाती है कि जब आप उसे चट्टान से धक्का देते हैं तो वह क्या करता है?

DeepDream कुछ हद तक एक डिबगिंग टूल के तौर पर बनाया गया था — उस काली पेटी के अंदर झाँकने का एक तरीक़ा, यह जाँचने के लिए कि AI ने असली अवधारणाएँ सीखी हैं या बस सस्ते शॉर्टकट। पर एक DeepDream तस्वीर तो नेटवर्क को एक चरम, अप्राकृतिक हालत में चलाते हुए बनती है, जिसके लिए वह कभी बना ही नहीं था। तो असली, ईमानदार समस्या यह है: उस भ्रम का कितना हिस्सा AI की सच्ची अंदरूनी "समझ" को दिखाता है, और कितना सिर्फ़ डायल को ग्यारह तक घुमा देने का एक अजीब-सा साइड इफ़ेक्ट है?

यह कोई तय हो चुका मामूली नोट नहीं है। AI इंटरप्रिटेबिलिटी का पूरा क्षेत्र — यह समझना कि ये सिस्टम अंदर असल में किस चीज़ का प्रतिनिधित्व करते हैं — आज भी पूरी तरह खुला पड़ा है, और DeepDream ठीक उसी की उलझी हुई शुरुआत पर बैठा है।

सिद्धांत और व्याख्याएँ

चलिए सोच-समझकर कही बातों को बेबुनियाद बातों से अलग करते हैं। नीचे जो कुछ भी है वह व्याख्या है, स्थापित तथ्य नहीं।

सिद्धांत 1: यह अपनी ख़ुराक का आईना है (ख़ूब प्रमाणित)। सबसे ठोस समझ यह है कि DeepDream आपको बस नेटवर्क के पूर्वाग्रह दिखाता है। किसी मॉडल को 120 कुत्तों की नस्लें खिलाओ तो वह कुत्तों के सपने देखेगा; किसी दूसरे मॉडल को जगहों के डेटासेट पर ट्रेन करो तो वह उसकी जगह मीनारों, मेहराबों और खिड़कियों के सपने देखेगा। ये तस्वीरें कोई जादू नहीं हैं — ये बस इसका प्रतिबिंब हैं कि मशीन को क्या खिलाया गया था (Google Research)। यही वह व्याख्या है जिसे ज़्यादातर विशेषज्ञ मानते हैं।

सिद्धांत 2: यह मशीन की "कल्पना" में झाँकने वाली खिड़की है (कयासबाज़ी)। कुछ लेखक और कलाकार दलील देते हैं कि DeepDream किसी रचनात्मक अंदरूनी जीवन जैसी कोई चीज़ उजागर करता है — कि नेटवर्क सचमुच के अर्थ में "सपने देख" रहा है। यह काव्यात्मक है और लोकप्रिय भी, पर यह महज़ कयासबाज़ी है। इसका कोई सबूत नहीं कि नेटवर्क कुछ भी महसूस करता है। वह बस गणित कर रहा है, बहुत तेज़ी से।

सिद्धांत 3: यह साबित करता है कि AI संवेदनशील या सचेत हो रहा है (असिद्ध)। ऑनलाइन, DeepDream के डरावने, आँखों से भरे नतीजों ने इन दावों को हवा दी कि AI "जाग चुका है," या यहाँ तक कि वह हक़ीक़त की किसी छिपी हुई परत में सेंध लगा रहा है। साफ़ कह दें: यह असिद्ध है और किसी भी विज्ञान से इसका समर्थन नहीं होता। वह बेचैन कर देने वाला रूप ट्रेनिंग डेटा और बेलगाम फ़ीडबैक का साइड इफ़ेक्ट है, किसी जागते दिमाग़ की निशानी नहीं।

सिद्धांत 4: "डरावने सपने" वाला नाता (किंवदंती, पर प्यारी)। चूँकि मोर्डविंटसेव ने इसे एक बुरे सपने से जागकर बनाया था, इसलिए एक सुथरी-सी कहानी गढ़ ली गई कि मशीन किसी तरह इंसानी डरावने सपनों को आगे बहा रही थी। कहने में मज़ेदार लगती है। पर सपने ने तो उन्हें बस बिस्तर से उठाया था — कुत्ते ImageNet से आए, उनके अवचेतन से नहीं (Artnome)।

स्रोत और आगे पढ़ने के लिए

DeepDream ने हमें यह सिखाया कि AI का सबसे अजीब बर्ताव दरअसल इस बात का इक़बालिया बयान है कि हमने उसे क्या खिलाया। और यहीं से आज के चैटबॉट और डीपफ़ेक इंजनों के लिए एक कहीं ज़्यादा बेचैन कर देने वाला सवाल उठता है: अगर सिर्फ़ कुत्तों को जानने वाली मशीन कुत्तों के सपने देखती थी, तो जो हम सब पर ट्रेन हुई हैं, वे आख़िर क्या देखना सीख रही हैं?

और पढ़ें — और भी अनसुलझे रहस्य

Google DeepDream: शुरुआती AI को हर जगह कुत्ते और आँखें क्यों दिखती थीं

जो बातें दस्तावेज़ों में दर्ज हैं

असली अनसुलझा सवाल

सिद्धांत और व्याख्याएँ

स्रोत और आगे पढ़ने के लिए

डीपफेक का अजीब, तेज़ इतिहास: एक लैब की चालाकी से लेकर $25 मिलियन की डकैती तक

ELIZA (1966): दुनिया का पहला चैटबॉट, जो हमें समझता ही नहीं था — फिर भी हम AI पर भरोसा क्यों करते हैं

लोआब: वो 'भुतही' औरत जिसे एक AI इमेज मॉडल बनाना बंद ही नहीं कर पाया