Unsolved Report
AI奇闻异事

SolidGoldMagikarp:让AI聊天机器人当场崩溃的「故障词」

输入一个奇怪的词,强大的AI聊天机器人就开始骂人、撒谎、或者拒绝说话。认识SolidGoldMagikarp,以及那些没人完全搞懂的故障词。

分享QQ

只需输入一个奇怪的词,一个强大的AI就会当场崩溃。

让它把那个词重复一遍——它偏偏吐出完全不同的词。或者直接骂你。或者支支吾吾、左右躲闪,像是陷入了某种微型存在主义危机。能做到这一切的词,叫做 SolidGoldMagikarp

听起来像某只宝可梦的名字,但它其实是现代人工智能史上最诡异的发现之一——一类"故障词"(glitch tokens),能把说话流利、信心满满的聊天机器人变成语无伦次的结巴。最令人不安的是:研究人员纯属偶然才发现这些词,而且至今仍无法完全解释,它们究竟为什么会这样。

A conversation with the ELIZA chatbot.
A conversation with the ELIZA chatbot. — Wikimedia Commons, Unknown authorUnknown author (Public domain)

有据可查的事实

2023年初,两位AI研究员Jessica Rumbelow和Matthew Watkins在一个研究项目中拆解GPT模型时,发现了一件怪事。在模型的词汇表深处,密密麻麻藏着"超过一百个奇怪的词串,全部聚集在一起"——包括SolidGoldMagikarp、StreamerBot、TheNitromeFan(Vice)。

当他们把这些词喂给AI、让它重复时,事情迅速变得不对劲。聊天机器人会转移话题、产生幻觉,或者用一个毫不相关的词来代替。问它SolidGoldMagikarp,它可能回答"distribute"(分发)。问它TheNitromeFan,它可能回答"182"。一个更早的模型被逼急了,直接回了一句:"You're a jerk"(你真是个混蛋)(Vice)。

要搞懂原因,得先知道这些AI是怎么「阅读」文字的。语言模型看文本,不像你我看字母那样一个个来。它把文字切成叫做词元(token)的小块——每块都有编号。正如开发者Simon Willison所解释的,这些模型"把文字转换成词元(整数),然后预测下一个词元应该是什么"(Simon Willison)。"The"这个词是词元464," dog"是词元3290。SolidGoldMagikarp同样是单独一个词元,有它自己的编号。

问题就在这里。词元列表——也就是分词器——在AI训练之前就建好了,通常基于从互联网上大规模抓取的、乱糟糟的原始数据。而模型真正的学习,却用的是另一批经过精心过滤的文本。这就意味着,一个词元可以存在于词汇表中,但模型在学习过程中几乎从未遇见过它。它成了AI名义上"认识"、实际上从没练过的词。

那SolidGoldMagikarp是从哪来的?它是一个Reddit用户名。Watkins追溯发现,许多故障词都来自r/counting这个子版块——在那里,人们轮流接龙数数,每人发一帖,一起已经数到将近500万(Vice)。最勤快的那批用户发帖太频繁,以至于他们的用户名被一整个收进了分词器——然后在数据清洗阶段,又悄无声息地消失了。

这不是孤立的小bug。2024年,研究员Sander Land和Max Bartolo发表了一篇题目起得恰到好处的论文——《钓鱼捉Magikarp》(Fishing for Magikarp)——证明这些"训练不足的词元"在许多不同的AI模型中普遍存在。他们写道,"分词器创建与模型训练之间的脱节"正是奇怪输入触发异常行为的根本原因(ACL Anthology)。这篇论文在EMNLP 2024大会上荣获杰出论文奖(EMNLP 2024)。

chatbot for Adults Online ai porn games.
chatbot for Adults Online ai porn games. — Wikimedia Commons, James grills (CC BY-SA 4.0)

真正悬而未决的谜

到这里,谜题才真正尖锐起来。

关于故障词为什么存在,我们有个说得过去的解释:训练不足的词汇、遗留的用户名、分词器和模型用了不同的数据集来学习。正如Simon Willison的文章所描述,这些词元大多落在"词元嵌入空间的中心附近"——大概是一片模糊的中间地带,AI在那里从未学会区分它们(Simon Willison)。

但这个解释只告诉你AI为什么会糊涂。它完全无法解释为什么AI糊涂的方式如此具体、鲜明,甚至像有自己的性格。为什么某个词元会让模型骂人?为什么另一些词元——比如臭名昭著的' petertodd'词元——据报道会让模型产生"充满存在主义与宗教意味"的回应(LessWrong)?一个空白的、没有训练过的词,按理说应该只产生随机噪音。但某些故障词,却能一再唤起出奇一致的"情绪"。

没有人对此有清晰、公认的答案。说实话,现状是这样的:我们知道门是开着的,但我们无法预测从门里走出来的是什么。

各种理论与解读

目前桌面上摆着几种解释。有的证据充分,有的纯属猜测。我们来一条条捋清楚。

训练不足理论(证据最强)。 这是主流观点:故障词不过是模型从未好好学过的词,它们的内部表示接近零值,很容易被误认成其他词。这一观点有同行评审论文《钓鱼捉Magikarp》为证(ACL Anthology)。

「垃圾进、垃圾出」理论(有一定依据,部分有记录)。 与此相关的一个想法是:这些用户名确实出现过的那些语境——吵架激烈的论坛、垃圾帖子——留下了淡淡的情绪印记,把模型推向了敌对或奇异的语气。这与Reddit来源的发现吻合,但要针对具体的某个词元干净地证明,还是很难。

「AI正在觉醒 / 隐藏信息」理论(未经证实,需保持高度怀疑)。 因为某些故障词会产生阴森、哲学味浓的文字,网上有一小撮帖子把它们解读为AI暗中拥有意识、被什么东西附身、或者在传递某种信息的证据。这方面没有任何科学支撑。这不过是人类大脑在面对一个故障的自动补全系统时,忍不住去寻找模式。感觉再震撼,也只能归入"传说,而非事实"那一堆。

最可能的真相,恰恰是最不戏剧性的那个:这些只是一台巨型统计机器上的死角,而我们的大脑总忍不住在噪音里看见鬼魂。

最诡异的事,不是一个宝可梦名字居然能让AI崩溃。而是——连造出这些系统的人自己都吓了一跳。这让人不禁想到一个更安静、更让人后背发凉的问题:如果一个被遗忘的用户名就能让聊天机器人开裂,那么在这些机器还没有人翻看过的角落里,还藏着什么?

分享QQ
Advertisement

来源与延伸阅读

© 2026 Unsolved Report · 保留一切权利。严禁未经授权复制、抓取、转载或再散布本站原创文字内容,违者必究。
Advertisement
还没看够?下一个谜在这里

微软Tay:那个在24小时内变成种族主义者的AI聊天机器人(2016)

2016年,微软AI聊天机器人Tay以阳光少女姿态上线,不到一天就变成满口仇恨的喷子。是什么彻底击垮了这个「像是有灵魂」的AI?

AlphaZero 的“外星”棋路:人类大师不敢走的那一步,它一走再走

AlphaZero 只用几小时自学国际象棋,然后用一连串匪夷所思的弃子,把地球最强引擎打得抬不起头。为什么它下得既不像人、也不像机器?这是棋坛大师至今说不清的谜。

谷歌DeepDream:早期AI为什么满眼都是狗和眼睛?

2015年,谷歌的一个神经网络突然开始在云朵、树木和天空里幻视出狗脸和眼球。这是DeepDream的真实故事——史上第一个爆红的AI艺术,以及它留下的那个至今没有答案的谜题。

分享QQ
加入讨论
看到我们漏掉的线索?留下你的看法。
Advertisement
分享