AI奇聞異事

SolidGoldMagikarp：讓AI聊天機器人當場失控的神秘故障詞

作者： The Unsolved Report Editorial Team · 發表於 2025-01-14

只要打出一個奇怪的詞，強大的AI聊天機器人就會開始罵人、撒謊，甚至拒絕回應。這就是SolidGoldMagikarp——一個沒有人能完全解釋的故障詞現象。

只要輸入一個奇怪的詞，強大的AI就會當機。

你叫它把那個詞重複說一遍，它偏偏吐出完全不相干的字。或者它直接罵你。或者它支支吾吾、東拉西扯，看起來像是陷入了某種微型存在危機。那個能觸發這一切的詞？SolidGoldMagikarp。

聽起來像是哪隻寶可夢的名字。它實際上是現代人工智慧領域中最詭異的發現之一——一類「故障詞（glitch tokens）」，能把口若懸河的聊天機器人瞬間變成結巴、說謊的廢物。最令人不安的是：研究人員純屬意外才發現這些詞，到現在都還無法完全解釋它們為何會這樣作怪。

A conversation with the ELIZA chatbot. — Wikimedia Commons, Unknown authorUnknown author (Public domain)

有據可查的事實

2023年初，兩位AI研究員Jessica Rumbelow與Matthew Watkins在一項研究計畫中摸索GPT模型的內部結構，發現了一些異常。藏在模型詞彙庫深處的，是「超過一百個聚集在一起的奇怪字串」——包括SolidGoldMagikarp、StreamerBot和TheNitromeFan（Vice）。

當他們把這些詞輸入AI、要求AI重複這些詞時，詭異的事情迅速發生了。聊天機器人開始迴避問題、產生幻覺，或者用完全不相關的詞來代替。問它SolidGoldMagikarp，它可能回答「distribute（分發）」。問它TheNitromeFan，它可能回答「182」。更早期的某個模型被逼急了，直接回覆：「你真是個混蛋。」（Vice）

要搞懂原因，得先了解這些AI其實是怎麼「讀字」的。語言模型看文字的方式和我們完全不同。它們把文字切碎成稱為token（詞元）的小塊——每一塊都有一個編號。開發者Simon Willison解釋道，這些模型「接收文字，將其轉換為token（整數），再預測接下來應該出現哪些token」（Simon Willison）。「The」這個詞是token 464，「 dog」這個詞是token 3290。SolidGoldMagikarp同樣是一個單一token，有自己的編號。

問題就出在這裡。token清單——也就是分詞器——是在AI訓練之前就建好的，通常來自一次大規模、雜亂的網路爬蟲。而模型本身的訓練則使用另一批經過仔細篩選的文字。於是，某個token可能存在於詞彙庫中，卻在模型學習階段幾乎從未出現過。它變成了一個AI技術上「認識」、卻從來沒有真正練習過的詞。

SolidGoldMagikarp究竟從哪裡來？它是一個Reddit用戶名稱。 Watkins追溯後發現，許多故障詞都源自r/counting——一個人們輪流依序計數的subreddit，參與者們加起來已經數到將近5,000,000（Vice）。那些最勤勞的計數者發文次數多到自己的用戶名稱被分詞器吃進去、變成單一token——然後在訓練資料清洗時，又悄悄從訓練集裡消失了。

這不是單一偶發的程式錯誤。2024年，研究人員Sander Land與Max Bartolo發表了一篇標題絕妙的論文——《Fishing for Magikarp（釣Magikarp）》——證明這類「訓練不足的token」廣泛散佈在各種不同的AI模型中。他們寫道，「分詞器建立與模型訓練之間的脫節」，正是讓奇怪的輸入引發異常行為的根本原因（ACL Anthology）。這篇論文還獲選為EMNLP 2024年會的傑出論文（EMNLP 2024）。

chatbot for Adults Online ai porn games. — Wikimedia Commons, James grills (CC BY-SA 4.0)

真正懸而未解的謎團

謎題從這裡開始變得更深了。

關於為什麼故障詞會存在，我們有一個還算說得通的故事：訓練不足的詞彙、遺留的用戶名稱、從不同資料集學習的分詞器與模型。正如Simon Willison的文章所描述，許多這類token「位於token嵌入空間的質心附近」——粗略來說，就是一個模糊的中間地帶，AI在那裡從來沒學會分辨這些詞（Simon Willison）。

但這個解釋只告訴你AI為何混亂。它無法完整解釋AI為什麼會以如此特定、生動、幾乎帶有個性的方式混亂。為什麼某個token會讓模型開口罵人？為什麼其他的token——例如惡名昭彰的「 petertodd」token——據說會引發帶有「存在主義與宗教動機」的回應（LessWrong）？一個空洞的、未經訓練的詞，照理說只應產生隨機雜訊。然而某些故障詞，偏偏會一再引發詭異而一致的情緒色彩。

沒有人對此有清晰、公認的答案。目前誠實的說法是：我們知道門是開著的，但我們無法完全預測會從裡面走出什麼。

各種理論與詮釋

目前有幾種解釋在討論中。有些有充分支持，有些純屬推測。讓我們把它們分清楚。

訓練不足理論（最有力的證據）。 這是主流觀點：故障詞只是模型從來沒學會處理的詞，所以它們的內部表示幾乎為零，容易被誤認為其他詞。這一點由《Fishing for Magikarp》等經過同儕審查的研究所支持（ACL Anthology）。

「垃圾進」理論（有一定合理性，部分有文獻支持）。 相關的想法是：這些用戶名稱確實出現過的那些語境——充斥爭吵的論壇、垃圾水文——留下了淡淡的情緒印記，把模型往敵對或奇怪的語氣方向推。這與Reddit來源的發現吻合，但對於任何單一token，都很難乾淨利落地加以證明。

「AI正在覺醒／隱藏訊息」理論（未經證實，請高度存疑）。 因為某些故障詞會產生聽起來陰森、哲學意味濃厚的文字，網路上有少數文章把它們詮釋為AI秘密具有意識、被什麼附身、或正在傳遞某種訊號的證據。這方面沒有任何科學支持。這不過是人類大腦對故障自動完成程式的過度解讀。感覺再迷人，它也只屬於「傳說，而非事實」那一堆。

最可能的真相，恰恰是最不戲劇化的那個：這些不過是一臺龐大統計機器裡的死角，而我們的大腦就是忍不住要從雜訊中讀出鬼影。

最詭異的事，不是一個聽起來像寶可夢名字的詞能讓AI崩潰。而是造出這些系統的人，同樣感到震驚——這讓人不禁冒出一個更安靜、更寒冷的問題：如果一個被遺忘的用戶名稱就能讓聊天機器人裂開，那麼，在這些機器還沒人看過的地方，究竟還藏著什麼？

資料來源與延伸閱讀

還沒看夠？下一個謎在這裡

SolidGoldMagikarp：讓AI聊天機器人當場失控的神秘故障詞

有據可查的事實

真正懸而未解的謎團

各種理論與詮釋

資料來源與延伸閱讀

微軟Tay：那個在24小時內學會仇恨的AI聊天機器人（2016）

AlphaZero 的「外星」棋路：連特級大師都不敢走的那一步

Google DeepDream：早期 AI 為什麼把狗和眼睛塞滿整個畫面？