Google DeepDream: शुरुआती AI को हर जगह कुत्ते और आँखें क्यों दिखती थीं
2015 में Google का एक न्यूरल नेटवर्क बादलों, पेड़ों और आसमान में कुत्ते और आँखें देखने लगा। पढ़िए DeepDream, पहली वायरल AI कला, और उसका अनसुलझा सवाल।
ज़्यूरिख़ के एक अपार्टमेंट में आधी रात बस बीती ही थी — तारीख़ 18 मई, 2015। Google का एक नौजवान इंजीनियर, अलेक्ज़ेंडर मोर्डविंटसेव, अचानक हड़बड़ाकर जाग गया। उसे यक़ीन था कि उसने कोई आवाज़ सुनी है। पर कोई आवाज़ थी ही नहीं। अब नींद उड़ चुकी थी, और दिमाग़ में वही एक ख़याल घूम रहा था जिसे वह हफ़्तों से चबा रहा था। वह सीधा अपने कंप्यूटर पर बैठ गया और टाइप करने लगा।
रात के दो बजते-बजते उसके हाथ कुछ लग चुका था। उसने एक आम-सी तस्वीर एक न्यूरल नेटवर्क में डाली, मशीन से कहा कि उसे जो भी दिखे उसे और ज़्यादा उभार दे, और इंतज़ार किया। जो जवाब लौटकर आया वह किसी डरावने सपने जैसा था: आसमान कुत्तों की थूथनों से रेंग रहा था, पेड़ों पर आँखें उग आई थीं, बादल जमकर ऐसे जीवों में बदल रहे थे जिनके बहुत सारे चेहरे थे। उसने यह तस्वीर Google के अंदरूनी सोशल नेटवर्क पर डाली और सोने चला गया।
कुछ ही हफ़्तों में पूरा इंटरनेट उन्हीं भ्रम भरी कुत्तों की तस्वीरों से भर जाने वाला था। पर पेच यह है — आज तक कोई पूरी तरह सहमत नहीं कि मशीन असल में "देख" क्या रही थी। चलिए, गहराई में उतरते हैं।

जो बातें दस्तावेज़ों में दर्ज हैं
इस तकनीक को आधिकारिक नाम 18 जून, 2015 को मिला, जब Google ने एक ब्लॉग पोस्ट छापी — "Inceptionism: Going Deeper into Neural Networks" — जिसका श्रेय मोर्डविंटसेव के साथ-साथ उनके साथियों क्रिस्टोफ़र ओला और माइक टायका को दिया गया (Google Research)।
अब असली कमाल की बात, और यह बेहद सरल है। एक न्यूरल नेटवर्क आमतौर पर तस्वीरों को पहचानने के लिए इस्तेमाल होता है: आप उसे एक फ़ोटो दिखाते हैं, वह कहता है "यह केला है।" DeepDream उसी मशीन को उल्टा चलाता है। आप उसे एक फ़ोटो दिखाकर, मानो कहते हैं, "इसमें तुझे जो भी दिखता है, उसे और बढ़ाकर दे।" नेटवर्क पैटर्न के हल्के-से इशारे ढूँढता है, उन्हें मज़बूत करता है, फिर देखता है, फिर और मज़बूत करता है। यही चक्कर दर्जनों बार। धुँधले इशारे तेज़, अटल और नामुमकिन चीज़ों में बदल जाते हैं (Google Research)।
मोर्डविंटसेव कला बनाने की कोशिश नहीं कर रहे थे। वह एक नए इंजीनियर थे जो यह कुरेद रहे थे कि ये नेटवर्क अंदर से असल में काम कैसे करते हैं। "न्यूरल नेटवर्क ऐसे सिस्टम हैं जो तस्वीरों को वर्गीकृत करने के लिए बनाए गए हैं," उन्होंने बाद में कहा। "मैं इससे वह काम करवाने की कोशिश कर रहा हूँ जिसके लिए यह बना ही नहीं है, जैसे पैटर्न के कुछ निशान पकड़ना" (Artnome)।
तो कुत्ते ही क्यों? इतने सारे कुत्ते क्यों? यह हिस्सा सचमुच दस्तावेज़ों में दर्ज है, कोई अंदाज़ा नहीं। मोर्डविंटसेव ने जो नेटवर्क इस्तेमाल किया, उसे ImageNet पर ट्रेन किया गया था — लेबल लगी तस्वीरों का एक विशाल भंडार। और उस डेटासेट का एक मशहूर हिस्सा AI से कहता है कि वह कुत्तों की 120 अलग-अलग नस्लों को पहचाने — बारीक काम, जैसे बीगल बनाम बासेट हाउंड। यह परीक्षा पास करने के लिए नेटवर्क को कुत्ते के अंगों का दीवाना बनना पड़ा: कान, थूथन, और सबसे बढ़कर आँखें। अब जब आप ऐसे नेटवर्क से कहते हैं "और ज़्यादा देख," तो वह वही ढूँढता है जो उसे सबसे अच्छे से आता है (Fast Company; Artnome)।
आँखें हर जगह उभरती हैं, और इसकी एक मिलती-जुलती वजह है: जानवरों की पूरी दुनिया में, आँख उन सबसे भरोसेमंद और बार-बार दोहराई जाने वाली आकृतियों में से एक है जिसे कोई दृष्टि-प्रणाली पकड़ सकती है। नेटवर्क ने सीख लिया था कि "आँख जैसे" धब्बे एक बढ़िया सुराग़ हैं, इसलिए उसने उन्हें दिल खोलकर बिखेर दिया।
जुलाई 2015 में Google ने इसका कोड GitHub पर ओपन-सोर्स कर दिया (github.com/google/deepdream)। लगभग रातों-रात, DeepDream शायद पहला ऐसा AI इमेज जनरेटर बन गया जो आम लोगों तक पहुँचा — डीपफ़ेक से लेकर आज के तस्वीरें बनाने वाले चैटबॉट तक, हर चीज़ का वह नशीला पुरखा। शोधकर्ता अब इस असर को "एल्गोरिदमिक पैरिडोलिया" कहते हैं: वही दिमाग़ी गड़बड़ी जिसकी वजह से आपको दीवार के बिजली के सॉकेट में चेहरा दिख जाता है, पर यहाँ यह एक मशीन के अंदर हो रही है (Wikipedia: Caffe))।

असली अनसुलझा सवाल
अब बात वहाँ पहुँचती है जहाँ ज़मीन फिसलने लगती है, और ईमानदार लोग आपस में असहमत हैं।
हम कह सकते हैं कि DeepDream क्या करता है। हम यह भी कह सकते हैं कि वह कुत्तों और आँखों का इतना दीवाना क्यों है — यह तो ट्रेनिंग डेटा बोल रहा है। पर एक गहरा सवाल है जिससे शोधकर्ता आज भी जूझ रहे हैं: क्या ऐसी कोई तस्वीर हमें सचमुच बताती है कि नेटवर्क "क्या सोचता है," या सिर्फ़ यह दिखाती है कि जब आप उसे चट्टान से धक्का देते हैं तो वह क्या करता है?
DeepDream कुछ हद तक एक डिबगिंग टूल के तौर पर बनाया गया था — उस काली पेटी के अंदर झाँकने का एक तरीक़ा, यह जाँचने के लिए कि AI ने असली अवधारणाएँ सीखी हैं या बस सस्ते शॉर्टकट। पर एक DeepDream तस्वीर तो नेटवर्क को एक चरम, अप्राकृतिक हालत में चलाते हुए बनती है, जिसके लिए वह कभी बना ही नहीं था। तो असली, ईमानदार समस्या यह है: उस भ्रम का कितना हिस्सा AI की सच्ची अंदरूनी "समझ" को दिखाता है, और कितना सिर्फ़ डायल को ग्यारह तक घुमा देने का एक अजीब-सा साइड इफ़ेक्ट है?
यह कोई तय हो चुका मामूली नोट नहीं है। AI इंटरप्रिटेबिलिटी का पूरा क्षेत्र — यह समझना कि ये सिस्टम अंदर असल में किस चीज़ का प्रतिनिधित्व करते हैं — आज भी पूरी तरह खुला पड़ा है, और DeepDream ठीक उसी की उलझी हुई शुरुआत पर बैठा है।
सिद्धांत और व्याख्याएँ
चलिए सोच-समझकर कही बातों को बेबुनियाद बातों से अलग करते हैं। नीचे जो कुछ भी है वह व्याख्या है, स्थापित तथ्य नहीं।
सिद्धांत 1: यह अपनी ख़ुराक का आईना है (ख़ूब प्रमाणित)। सबसे ठोस समझ यह है कि DeepDream आपको बस नेटवर्क के पूर्वाग्रह दिखाता है। किसी मॉडल को 120 कुत्तों की नस्लें खिलाओ तो वह कुत्तों के सपने देखेगा; किसी दूसरे मॉडल को जगहों के डेटासेट पर ट्रेन करो तो वह उसकी जगह मीनारों, मेहराबों और खिड़कियों के सपने देखेगा। ये तस्वीरें कोई जादू नहीं हैं — ये बस इसका प्रतिबिंब हैं कि मशीन को क्या खिलाया गया था (Google Research)। यही वह व्याख्या है जिसे ज़्यादातर विशेषज्ञ मानते हैं।
सिद्धांत 2: यह मशीन की "कल्पना" में झाँकने वाली खिड़की है (कयासबाज़ी)। कुछ लेखक और कलाकार दलील देते हैं कि DeepDream किसी रचनात्मक अंदरूनी जीवन जैसी कोई चीज़ उजागर करता है — कि नेटवर्क सचमुच के अर्थ में "सपने देख" रहा है। यह काव्यात्मक है और लोकप्रिय भी, पर यह महज़ कयासबाज़ी है। इसका कोई सबूत नहीं कि नेटवर्क कुछ भी महसूस करता है। वह बस गणित कर रहा है, बहुत तेज़ी से।
सिद्धांत 3: यह साबित करता है कि AI संवेदनशील या सचेत हो रहा है (असिद्ध)। ऑनलाइन, DeepDream के डरावने, आँखों से भरे नतीजों ने इन दावों को हवा दी कि AI "जाग चुका है," या यहाँ तक कि वह हक़ीक़त की किसी छिपी हुई परत में सेंध लगा रहा है। साफ़ कह दें: यह असिद्ध है और किसी भी विज्ञान से इसका समर्थन नहीं होता। वह बेचैन कर देने वाला रूप ट्रेनिंग डेटा और बेलगाम फ़ीडबैक का साइड इफ़ेक्ट है, किसी जागते दिमाग़ की निशानी नहीं।
सिद्धांत 4: "डरावने सपने" वाला नाता (किंवदंती, पर प्यारी)। चूँकि मोर्डविंटसेव ने इसे एक बुरे सपने से जागकर बनाया था, इसलिए एक सुथरी-सी कहानी गढ़ ली गई कि मशीन किसी तरह इंसानी डरावने सपनों को आगे बहा रही थी। कहने में मज़ेदार लगती है। पर सपने ने तो उन्हें बस बिस्तर से उठाया था — कुत्ते ImageNet से आए, उनके अवचेतन से नहीं (Artnome)।
स्रोत और आगे पढ़ने के लिए
- Inceptionism: Going Deeper into Neural Networks — Google Research ब्लॉग (2015)
- Why Google's Deep Dream A.I. Hallucinates In Dog Faces — Fast Company
- DeepDream Creator Unveils Very First Images After Three Years — Artnome
- The story of deep neural networks and hallucinogenic images — Google Arts & Culture / Barbican
- Original DeepDream स्रोत कोड — github.com/google/deepdream
- Caffe (software) — Wikipedia)
DeepDream ने हमें यह सिखाया कि AI का सबसे अजीब बर्ताव दरअसल इस बात का इक़बालिया बयान है कि हमने उसे क्या खिलाया। और यहीं से आज के चैटबॉट और डीपफ़ेक इंजनों के लिए एक कहीं ज़्यादा बेचैन कर देने वाला सवाल उठता है: अगर सिर्फ़ कुत्तों को जानने वाली मशीन कुत्तों के सपने देखती थी, तो जो हम सब पर ट्रेन हुई हैं, वे आख़िर क्या देखना सीख रही हैं?
डीपफेक का अजीब, तेज़ इतिहास: एक लैब की चालाकी से लेकर $25 मिलियन की डकैती तक
2014 के एक AI प्रयोग से डीपफेक चेहरा-बदल और करोड़ों की ठगी तक कैसे पहुँचा? डीपफेक तकनीक का अजीब, तेज़ इतिहास, आसान भाषा में।
ELIZA (1966): दुनिया का पहला चैटबॉट, जो हमें समझता ही नहीं था — फिर भी हम AI पर भरोसा क्यों करते हैं
1966 में MIT के एक मामूली प्रोग्राम ELIZA ने अपने ही बनाने वाले की सेक्रेटरी को इतना भरमाया कि उसने अकेले रहने की माँग कर दी। यही ELIZA इफ़ेक्ट आज भी हमें चैटबॉट पर भरोसा करवाता है।
लोआब: वो 'भुतही' औरत जिसे एक AI इमेज मॉडल बनाना बंद ही नहीं कर पाया
एक खोखली आँखों वाली औरत बार-बार AI इमेज जनरेटर से उभर आती है—और कोई उसे मिटा नहीं पाता। मिलिए लोआब से, नेगेटिव प्रॉम्प्ट से जन्मी वायरल 'श्रापित' तस्वीर।