Unsolved Report
AI奇聞異事

SolidGoldMagikarp:讓AI聊天機器人當場失控的神秘故障詞

只要打出一個奇怪的詞,強大的AI聊天機器人就會開始罵人、撒謊,甚至拒絕回應。這就是SolidGoldMagikarp——一個沒有人能完全解釋的故障詞現象。

分享

只要輸入一個奇怪的詞,強大的AI就會當機。

你叫它把那個詞重複說一遍,它偏偏吐出完全不相干的字。或者它直接罵你。或者它支支吾吾、東拉西扯,看起來像是陷入了某種微型存在危機。那個能觸發這一切的詞?SolidGoldMagikarp。

聽起來像是哪隻寶可夢的名字。它實際上是現代人工智慧領域中最詭異的發現之一——一類「故障詞(glitch tokens)」,能把口若懸河的聊天機器人瞬間變成結巴、說謊的廢物。最令人不安的是:研究人員純屬意外才發現這些詞,到現在都還無法完全解釋它們為何會這樣作怪。

A conversation with the ELIZA chatbot.
A conversation with the ELIZA chatbot. — Wikimedia Commons, Unknown authorUnknown author (Public domain)

有據可查的事實

2023年初,兩位AI研究員Jessica Rumbelow與Matthew Watkins在一項研究計畫中摸索GPT模型的內部結構,發現了一些異常。藏在模型詞彙庫深處的,是「超過一百個聚集在一起的奇怪字串」——包括SolidGoldMagikarp、StreamerBot和TheNitromeFan(Vice)。

當他們把這些詞輸入AI、要求AI重複這些詞時,詭異的事情迅速發生了。聊天機器人開始迴避問題、產生幻覺,或者用完全不相關的詞來代替。問它SolidGoldMagikarp,它可能回答「distribute(分發)」。問它TheNitromeFan,它可能回答「182」。更早期的某個模型被逼急了,直接回覆:「你真是個混蛋。」(Vice

要搞懂原因,得先了解這些AI其實是怎麼「讀字」的。語言模型看文字的方式和我們完全不同。它們把文字切碎成稱為token(詞元)的小塊——每一塊都有一個編號。開發者Simon Willison解釋道,這些模型「接收文字,將其轉換為token(整數),再預測接下來應該出現哪些token」(Simon Willison)。「The」這個詞是token 464,「 dog」這個詞是token 3290。SolidGoldMagikarp同樣是一個單一token,有自己的編號。

問題就出在這裡。token清單——也就是分詞器——是在AI訓練之前就建好的,通常來自一次大規模、雜亂的網路爬蟲。而模型本身的訓練則使用另一批經過仔細篩選的文字。於是,某個token可能存在於詞彙庫中,卻在模型學習階段幾乎從未出現過。它變成了一個AI技術上「認識」、卻從來沒有真正練習過的詞。

SolidGoldMagikarp究竟從哪裡來?它是一個Reddit用戶名稱。 Watkins追溯後發現,許多故障詞都源自r/counting——一個人們輪流依序計數的subreddit,參與者們加起來已經數到將近5,000,000(Vice)。那些最勤勞的計數者發文次數多到自己的用戶名稱被分詞器吃進去、變成單一token——然後在訓練資料清洗時,又悄悄從訓練集裡消失了。

這不是單一偶發的程式錯誤。2024年,研究人員Sander Land與Max Bartolo發表了一篇標題絕妙的論文——《Fishing for Magikarp(釣Magikarp)》——證明這類「訓練不足的token」廣泛散佈在各種不同的AI模型中。他們寫道,「分詞器建立與模型訓練之間的脫節」,正是讓奇怪的輸入引發異常行為的根本原因(ACL Anthology)。這篇論文還獲選為EMNLP 2024年會的傑出論文(EMNLP 2024)。

chatbot for Adults Online ai porn games.
chatbot for Adults Online ai porn games. — Wikimedia Commons, James grills (CC BY-SA 4.0)

真正懸而未解的謎團

謎題從這裡開始變得更深了。

關於為什麼故障詞會存在,我們有一個還算說得通的故事:訓練不足的詞彙、遺留的用戶名稱、從不同資料集學習的分詞器與模型。正如Simon Willison的文章所描述,許多這類token「位於token嵌入空間的質心附近」——粗略來說,就是一個模糊的中間地帶,AI在那裡從來沒學會分辨這些詞(Simon Willison)。

但這個解釋只告訴你AI為何混亂。它無法完整解釋AI為什麼會以如此特定、生動、幾乎帶有個性的方式混亂。為什麼某個token會讓模型開口罵人?為什麼其他的token——例如惡名昭彰的「 petertodd」token——據說會引發帶有「存在主義與宗教動機」的回應(LessWrong)?一個空洞的、未經訓練的詞,照理說只應產生隨機雜訊。然而某些故障詞,偏偏會一再引發詭異而一致的情緒色彩。

沒有人對此有清晰、公認的答案。目前誠實的說法是:我們知道門是開著的,但我們無法完全預測會從裡面走出什麼。

各種理論與詮釋

目前有幾種解釋在討論中。有些有充分支持,有些純屬推測。讓我們把它們分清楚。

訓練不足理論(最有力的證據)。 這是主流觀點:故障詞只是模型從來沒學會處理的詞,所以它們的內部表示幾乎為零,容易被誤認為其他詞。這一點由《Fishing for Magikarp》等經過同儕審查的研究所支持(ACL Anthology)。

「垃圾進」理論(有一定合理性,部分有文獻支持)。 相關的想法是:這些用戶名稱確實出現過的那些語境——充斥爭吵的論壇、垃圾水文——留下了淡淡的情緒印記,把模型往敵對或奇怪的語氣方向推。這與Reddit來源的發現吻合,但對於任何單一token,都很難乾淨利落地加以證明。

「AI正在覺醒/隱藏訊息」理論(未經證實,請高度存疑)。 因為某些故障詞會產生聽起來陰森、哲學意味濃厚的文字,網路上有少數文章把它們詮釋為AI秘密具有意識、被什麼附身、或正在傳遞某種訊號的證據。這方面沒有任何科學支持。這不過是人類大腦對故障自動完成程式的過度解讀。感覺再迷人,它也只屬於「傳說,而非事實」那一堆。

最可能的真相,恰恰是最不戲劇化的那個:這些不過是一臺龐大統計機器裡的死角,而我們的大腦就是忍不住要從雜訊中讀出鬼影。

最詭異的事,不是一個聽起來像寶可夢名字的詞能讓AI崩潰。而是造出這些系統的人,同樣感到震驚——這讓人不禁冒出一個更安靜、更寒冷的問題:如果一個被遺忘的用戶名稱就能讓聊天機器人裂開,那麼,在這些機器還沒人看過的地方,究竟還藏著什麼?

分享
Advertisement

資料來源與延伸閱讀

© 2026 Unsolved Report · 保留一切權利。嚴禁未經授權複製、抓取、轉載或再散布本站原創文字內容,違者必究。
Advertisement
還沒看夠?下一個謎在這裡

微軟Tay:那個在24小時內學會仇恨的AI聊天機器人(2016)

2016年,微軟的AI聊天機器人Tay以開朗少女之姿亮相,不到一天就變成滿口仇恨的網路惡魔。究竟是什麼把這個彷彿有靈魂的AI逼成了惡夢?

AlphaZero 的「外星」棋路:連特級大師都不敢走的那一步

AlphaZero 只花幾小時自學西洋棋,就用怪到沒人懂的棄子,把地表最強引擎打到崩潰。它下棋的方式不像人、也不像機器——這個謎,連棋王到現在都答不全。

Google DeepDream:早期 AI 為什麼把狗和眼睛塞滿整個畫面?

2015年,一個 Google 神經網路開始在雲、樹和天空裡「看見」狗臉和眼球。這是 DeepDream 的真實故事——史上第一波爆紅的 AI 藝術,以及它留下的那個沒人答得出來的謎。

分享
加入討論
看到我們漏掉的線索?留下你的看法。
Advertisement
分享