AI奇闻异事

SolidGoldMagikarp：让AI聊天机器人当场崩溃的「故障词」

作者： The Unsolved Report Editorial Team · 发表于 2026-03-14

输入一个奇怪的词，强大的AI聊天机器人就开始骂人、撒谎、或者拒绝说话。认识SolidGoldMagikarp，以及那些没人完全搞懂的故障词。

分享 QQ

只需输入一个奇怪的词，一个强大的AI就会当场崩溃。

让它把那个词重复一遍——它偏偏吐出完全不同的词。或者直接骂你。或者支支吾吾、左右躲闪，像是陷入了某种微型存在主义危机。能做到这一切的词，叫做 SolidGoldMagikarp。

听起来像某只宝可梦的名字，但它其实是现代人工智能史上最诡异的发现之一——一类"故障词"（glitch tokens），能把说话流利、信心满满的聊天机器人变成语无伦次的结巴。最令人不安的是：研究人员纯属偶然才发现这些词，而且至今仍无法完全解释，它们究竟为什么会这样。

A conversation with the ELIZA chatbot. — Wikimedia Commons, Unknown authorUnknown author (Public domain)

有据可查的事实

2023年初，两位AI研究员Jessica Rumbelow和Matthew Watkins在一个研究项目中拆解GPT模型时，发现了一件怪事。在模型的词汇表深处，密密麻麻藏着"超过一百个奇怪的词串，全部聚集在一起"——包括SolidGoldMagikarp、StreamerBot、TheNitromeFan（Vice）。

当他们把这些词喂给AI、让它重复时，事情迅速变得不对劲。聊天机器人会转移话题、产生幻觉，或者用一个毫不相关的词来代替。问它SolidGoldMagikarp，它可能回答"distribute"（分发）。问它TheNitromeFan，它可能回答"182"。一个更早的模型被逼急了，直接回了一句："You're a jerk"（你真是个混蛋）（Vice）。

要搞懂原因，得先知道这些AI是怎么「阅读」文字的。语言模型看文本，不像你我看字母那样一个个来。它把文字切成叫做词元（token）的小块——每块都有编号。正如开发者Simon Willison所解释的，这些模型"把文字转换成词元（整数），然后预测下一个词元应该是什么"（Simon Willison）。"The"这个词是词元464，" dog"是词元3290。SolidGoldMagikarp同样是单独一个词元，有它自己的编号。

问题就在这里。词元列表——也就是分词器——在AI训练之前就建好了，通常基于从互联网上大规模抓取的、乱糟糟的原始数据。而模型真正的学习，却用的是另一批经过精心过滤的文本。这就意味着，一个词元可以存在于词汇表中，但模型在学习过程中几乎从未遇见过它。它成了AI名义上"认识"、实际上从没练过的词。

那SolidGoldMagikarp是从哪来的？它是一个Reddit用户名。Watkins追溯发现，许多故障词都来自r/counting这个子版块——在那里，人们轮流接龙数数，每人发一帖，一起已经数到将近500万（Vice）。最勤快的那批用户发帖太频繁，以至于他们的用户名被一整个收进了分词器——然后在数据清洗阶段，又悄无声息地消失了。

这不是孤立的小bug。2024年，研究员Sander Land和Max Bartolo发表了一篇题目起得恰到好处的论文——《钓鱼捉Magikarp》（Fishing for Magikarp）——证明这些"训练不足的词元"在许多不同的AI模型中普遍存在。他们写道，"分词器创建与模型训练之间的脱节"正是奇怪输入触发异常行为的根本原因（ACL Anthology）。这篇论文在EMNLP 2024大会上荣获杰出论文奖（EMNLP 2024）。

chatbot for Adults Online ai porn games. — Wikimedia Commons, James grills (CC BY-SA 4.0)

真正悬而未决的谜

到这里，谜题才真正尖锐起来。

关于故障词为什么存在，我们有个说得过去的解释：训练不足的词汇、遗留的用户名、分词器和模型用了不同的数据集来学习。正如Simon Willison的文章所描述，这些词元大多落在"词元嵌入空间的中心附近"——大概是一片模糊的中间地带，AI在那里从未学会区分它们（Simon Willison）。

但这个解释只告诉你AI为什么会糊涂。它完全无法解释为什么AI糊涂的方式如此具体、鲜明，甚至像有自己的性格。为什么某个词元会让模型骂人？为什么另一些词元——比如臭名昭著的' petertodd'词元——据报道会让模型产生"充满存在主义与宗教意味"的回应（LessWrong）？一个空白的、没有训练过的词，按理说应该只产生随机噪音。但某些故障词，却能一再唤起出奇一致的"情绪"。

没有人对此有清晰、公认的答案。说实话，现状是这样的：我们知道门是开着的，但我们无法预测从门里走出来的是什么。

各种理论与解读

目前桌面上摆着几种解释。有的证据充分，有的纯属猜测。我们来一条条捋清楚。

训练不足理论（证据最强）。 这是主流观点：故障词不过是模型从未好好学过的词，它们的内部表示接近零值，很容易被误认成其他词。这一观点有同行评审论文《钓鱼捉Magikarp》为证（ACL Anthology）。

「垃圾进、垃圾出」理论（有一定依据，部分有记录）。 与此相关的一个想法是：这些用户名确实出现过的那些语境——吵架激烈的论坛、垃圾帖子——留下了淡淡的情绪印记，把模型推向了敌对或奇异的语气。这与Reddit来源的发现吻合，但要针对具体的某个词元干净地证明，还是很难。

「AI正在觉醒 / 隐藏信息」理论（未经证实，需保持高度怀疑）。 因为某些故障词会产生阴森、哲学味浓的文字，网上有一小撮帖子把它们解读为AI暗中拥有意识、被什么东西附身、或者在传递某种信息的证据。这方面没有任何科学支撑。这不过是人类大脑在面对一个故障的自动补全系统时，忍不住去寻找模式。感觉再震撼，也只能归入"传说，而非事实"那一堆。

最可能的真相，恰恰是最不戏剧性的那个：这些只是一台巨型统计机器上的死角，而我们的大脑总忍不住在噪音里看见鬼魂。

最诡异的事，不是一个宝可梦名字居然能让AI崩溃。而是——连造出这些系统的人自己都吓了一跳。这让人不禁想到一个更安静、更让人后背发凉的问题：如果一个被遗忘的用户名就能让聊天机器人开裂，那么在这些机器还没有人翻看过的角落里，还藏着什么？

分享 QQ

来源与延伸阅读

还没看够？下一个谜在这里

SolidGoldMagikarp：让AI聊天机器人当场崩溃的「故障词」

有据可查的事实

真正悬而未决的谜

各种理论与解读

来源与延伸阅读

微软Tay：那个在24小时内变成种族主义者的AI聊天机器人（2016）

AlphaZero 的“外星”棋路：人类大师不敢走的那一步，它一走再走

谷歌DeepDream：早期AI为什么满眼都是狗和眼睛？