AlphaZero की 'एलियन' शतरंज: वो चालें जो कोई ग्रैंडमास्टर खेलने की हिम्मत न करे
AlphaZero ने कुछ घंटों में खुद शतरंज सीखी, फिर अजीबोगरीब बलिदानों से दुनिया के सबसे ताकतवर इंजन को कुचल दिया। ये AI इंसान या मशीन जैसा क्यों नहीं खेलता?
ज़रा सोचिए, धरती की सबसे होशियार शतरंज मशीन बोर्ड के उस पार बैठी है। उसने अब तक रिकॉर्ड हुई हर एक बाज़ी पढ़ रखी है। वो एक सेकंड में लाखों स्थितियों का हिसाब लगाती है। और तभी एक अजनबी सामने आकर बैठ जाता है — एक प्रोग्राम, जिसने ये खेल बस कुछ घंटे पहले सीखा है, जो सिर्फ़ नियम जानता है — और बिना किसी ऐसी वजह के, जो किसी इंसान को समझ आए, वो अपना मोहरा बोर्ड के कोने में ठेल देता है।
फिर वो जीत जाता है। फिर से। और फिर से। और वो कभी नहीं हारता।
वो अजनबी था AlphaZero। और शतरंज की दुनिया की प्रतिक्रिया गर्व नहीं थी। वो किसी डर जैसी चीज़ थी।

दर्ज किए गए तथ्य
दिसंबर 2017 में AI लैब DeepMind ने AlphaZero नाम का एक प्रोग्राम सामने रखा। पूरा सेटअप लगभग नामुमकिन लगता था: उसे सिर्फ़ शतरंज के नियम दिए गए और कुछ नहीं — न कोई ओपनिंग बुक, न कोई मशहूर बाज़ी, न कोई इंसानी कोचिंग। उसने सब कुछ खुद से सीखा, खुद के ख़िलाफ़ बार-बार खेलकर, लाखों बार।
करीब चार घंटे की सेल्फ-प्ले के बाद ही AlphaZero इतना मज़बूत हो चुका था कि वो Stockfish 8 को चुनौती दे सके — जो उस समय कंप्यूटर शतरंज का राज करने वाला चैंपियन था। 100 बाज़ियों के मुकाबले में AlphaZero ने 28 जीतीं, 72 ड्रॉ रहीं, और हारा एक भी नहीं (Chess.com)। इंसानियत के बनाए सबसे बेहतरीन इंजन के ख़िलाफ़ एक भी हार नहीं।
पूरी विधि बाद में पीयर-रिव्यूड जर्नल Science में छपी, जहाँ DeepMind की टीम ने इसे बताया "एक ऐसा सामान्य रीइन्फोर्समेंट लर्निंग एल्गोरिदम जो सेल्फ-प्ले के ज़रिए शतरंज, शोगी और गो में महारत हासिल करता है" (Science, 2018)। वही प्रोग्राम, बिना किसी बदलाव के, शोगी (जापानी शतरंज) और सदियों पुराने खेल गो में भी छा गया।
लेकिन डरावनी बात स्कोर नहीं हैं। अंदाज़ है।
DeepMind के सह-संस्थापक डेमिस हसाबिस ने इसे सीधे शब्दों में कहा: "ये न इंसान की तरह खेलता है, न प्रोग्राम की तरह। ये तीसरे, लगभग एलियन जैसे, अंदाज़ में खेलता है" (MIT Technology Review)। उन्होंने एक पल की ओर इशारा किया जहाँ AlphaZero ने अपनी वज़ीर को कोने में ठेल दिया — "एक बहुत ही अजीब चाल, जिसकी पोज़ीशनल वैल्यू हैरान कर देती है।" उन्होंने इस पूरी चीज़ को कहा "किसी और आयाम की शतरंज।"
AlphaZero को मोहरे लुटाना पसंद था। वो एक ऊँट की कुर्बानी दे देता, कभी-कभी तो वज़ीर तक — बोर्ड का सबसे ताकतवर मोहरा — और ये गलती से नहीं, बल्कि जान-बूझकर होता था। वो कच्चे मटीरियल के बदले एक ऐसी बढ़त लेता था, जो इतनी बारीक होती कि इंसान उसे कई चालों बाद ही समझ पाते — अगर समझ भी पाते तो।
ग्रैंडमास्टर पीटर हाइने नीलसन, जिन्होंने वर्ल्ड चैंपियनों को कोचिंग दी है, ने BBC के लिए इस एहसास को यूँ बयान किया: "मैं हमेशा सोचता था कि अगर कोई बेहतर प्रजाति धरती पर उतरे और हमें दिखाए कि वो शतरंज कैसे खेलती है, तो कैसा होगा।" फिर उन्होंने वो रोंगटे खड़े कर देने वाली बात जोड़ी: "अब मुझे पता है" (ScienceAlert)।
असली अनसुलझा सवाल
यहाँ वो पहेली है जो आज तक पूरी तरह सुलझी नहीं: *कोई साफ़-साफ़ नहीं बता सकता कि AlphaZero की अजीब चालें काम क्यों करती हैं।*
Stockfish जैसा परंपरागत इंजन, अपनी सारी ताकत के बावजूद, उन्हीं नंबरों में सोचता है जिन्हें इंसान समझ सकते हैं। वो मटीरियल गिनता है। वो पोज़ीशन को स्कोर देता है। आप उससे पूछ सकते हैं "ये चाल क्यों?" और उसके गणित का पीछा कर सकते हैं।
AlphaZero अलग है। उसने एक न्यूरल नेटवर्क के अंदर एक तरह की अंतर्ज्ञान (इंट्यूशन) बना ली थी — लाखों ट्यून किए गए मानों की एक उलझन, जिसे उसके बनाने वाले भी किसी वाक्य की तरह पढ़ नहीं सकते। वो उस कोने वाली वज़ीर की चाल को उसी तरह "जानता" है जैसे आप किसी चेहरे को देखकर "जान" जाते हैं कि वो दोस्ताना है: एकदम, और बिना ये बताए कि आपने ऐसा क्यों सोचा।
यही वो अनसुलझा सवाल है जिसे वैज्ञानिक कहते हैं एपिस्टेमिक ओपेसिटी — ये बेचैन कर देने वाला सच कि एक AI लगातार सही हो सकता है, फिर भी अपना हिसाब-किताब दिखा नहीं सकता (ResearchGate)। AlphaZero ने शतरंज की ऐसी समझदारी खोज निकाली जो किसी इंसान ने कभी लिखी ही नहीं थी। लेकिन वो उसे हमें शब्दों में सिखा नहीं सकता। हम बस देख सकते हैं, नकल कर सकते हैं, और हैरान हो सकते हैं।
तो असली रहस्य ये नहीं है कि "क्या AI ने धोखा दिया?" उसने नहीं दिया। असली रहस्य ये है: वो ऐसा क्या समझता है, जो हम नहीं समझते?
सिद्धांत और व्याख्याएँ
लोगों ने इसके बहुत अलग-अलग जवाब दिए हैं। कुछ ठोस हैं। कुछ बेलगाम। चलिए इन्हें ईमानदारी से देखते हैं।
सिद्धांत 1 — ये बस ज़्यादा गहराई तक हिसाब लगाता है (मुख्यधारा)। कई विशेषज्ञ मानते हैं कि इसमें कोई जादू है ही नहीं। AlphaZero की "एलियन" चालें सिर्फ़ एलियन लगती हैं, क्योंकि उनका फ़ायदा 15 या 20 चाल आगे जाकर मिलता है — टॉप इंसानी हिसाब की पहुँच के भी पार। AlphaZero के लिए वो कोने वाली वज़ीर की चाल बस सही है। भरोसेमंद और बड़े पैमाने पर स्वीकार्य, लेकिन ये उस इंसान जैसी अंतर्ज्ञान को पूरी तरह नहीं समझाता, जिसका इस्तेमाल नेटवर्क करता दिखता है।
सिद्धांत 2 — मुकाबला उसके फ़ायदे के लिए सेट किया गया था (एक जायज़ आलोचना)। ये बात असली है, हाशिए की नहीं। ग्रैंडमास्टर हिकारू नाकामुरा ने 2017 के मुकाबले को "बेईमानी" कहा, उनका तर्क था कि Stockfish को कमज़ोर किया गया था — उसे उसकी आम ओपनिंग बुक के बिना खेलने पर मजबूर किया गया, और ऐसे हार्डवेयर पर जिसे कुछ लोग नाकाफ़ी मानते थे (Chess.com)। ये टेस्टिंग की शर्तों को लेकर एक वाजिब, दर्ज विवाद है — हालाँकि बेहतर सेटअप के साथ बाद के दोबारा हुए मुकाबलों में भी AlphaZero ने बेहद शानदार प्रदर्शन किया।
सिद्धांत 3 — "शायद शतरंज को लेकर हमारी सोच ही बहुत छोटी थी" (दार्शनिक, काल्पनिक)। हसाबिस ने एक नर्म, पर दिमाग़ हिला देने वाला सुझाव हवा में छोड़ा कि इंसानों ने शतरंज को बस एक डिब्बे में बंद कर रखा था — कि AlphaZero ने वो दरवाज़े ढूँढ लिए जिन पर हमारी नज़र कभी गई ही नहीं (MIT Technology Review)। दिलचस्प नज़रिया, पर ये व्याख्या है, सबूत नहीं।
सिद्धांत 4 — ये "सोच" रहा है या संवेदनशील है (असिद्ध, लगभग ज़रूर गलत)। नीलसन की "बेहतर प्रजाति" वाली बात इतनी दूर तक फैली कि इंटरनेट का एक कोना अब AlphaZero को एक सचेत, एलियन जैसी मशीनी बुद्धि की झलक मान बैठा है — कुछ तो संवेदनशील AI की फुसफुसाहट तक करते हैं। इसका शून्य सबूत है। AlphaZero के पास न कोई चेतना है, न कोई लक्ष्य, न कोई भीतरी ज़िंदगी। ये एक पैटर्न-मिलाने वाला है, जो एक बंद खेल में हैरतअंगेज़ रूप से माहिर हो गया। "एलियन" शब्द उसके अंदाज़ के लिए एक रूपक है, किसी दिमाग़ होने का दावा नहीं। इसे साफ़-साफ़ ऐसे ही पढ़िए: असिद्ध कल्पना, जो मिथक की कगार पर है।
स्रोत और आगे पढ़ने के लिए
- AlphaZero's "Alien" Chess Shows the Power, and the Peculiarity, of AI — MIT Technology Review
- A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play — Science (2018)
- Google's AlphaZero Destroys Stockfish In 100-Game Match — Chess.com
- It Took 4 Hours For Google's AI To Master Chess — ScienceAlert
- Mastering Chess and Shogi by Self-Play — arXiv preprint (1712.01815)
- Chess, Artificial Intelligence, and Epistemic Opacity — ResearchGate
AlphaZero ने हमें एक ऐसी मशीन दिखाई जो शतरंज के बोर्ड के उन साफ़-सुथरे 64 खानों के अंदर, समझ से परे शानदार हो सकती है। लेकिन शतरंज के नियम हैं। असली दुनिया के नहीं हैं। तो क्या होगा जब हम उसी ख़ामोश, एलियन जैसी अंतर्ज्ञान के हाथ में किसी खेल से कहीं ज़्यादा उलझी हुई चीज़ थमा दें — एक चेहरा, एक आवाज़, एक ऐसी तस्वीर जो कभी असली थी ही नहीं?
बस यहीं से चीज़ें अजीब होने लगती हैं।
Google DeepDream: शुरुआती AI को हर जगह कुत्ते और आँखें क्यों दिखती थीं
2015 में Google का एक न्यूरल नेटवर्क बादलों, पेड़ों और आसमान में कुत्ते और आँखें देखने लगा। पढ़िए DeepDream, पहली वायरल AI कला, और उसका अनसुलझा सवाल।
डीपफेक का अजीब, तेज़ इतिहास: एक लैब की चालाकी से लेकर $25 मिलियन की डकैती तक
2014 के एक AI प्रयोग से डीपफेक चेहरा-बदल और करोड़ों की ठगी तक कैसे पहुँचा? डीपफेक तकनीक का अजीब, तेज़ इतिहास, आसान भाषा में।
ELIZA (1966): दुनिया का पहला चैटबॉट, जो हमें समझता ही नहीं था — फिर भी हम AI पर भरोसा क्यों करते हैं
1966 में MIT के एक मामूली प्रोग्राम ELIZA ने अपने ही बनाने वाले की सेक्रेटरी को इतना भरमाया कि उसने अकेले रहने की माँग कर दी। यही ELIZA इफ़ेक्ट आज भी हमें चैटबॉट पर भरोसा करवाता है।