AI奇闻异事

谷歌DeepDream：早期AI为什么满眼都是狗和眼睛？

作者： The Unsolved Report Editorial Team · 发表于 2019-01-14

2015年，谷歌的一个神经网络突然开始在云朵、树木和天空里幻视出狗脸和眼球。这是DeepDream的真实故事——史上第一个爆红的AI艺术，以及它留下的那个至今没有答案的谜题。

苏黎世的一间公寓，2015年5月18日，刚过午夜。一位年轻的谷歌工程师猛地惊醒，确信自己听到了声响。其实什么都没有。但他已经彻底清醒，脑子里嗡嗡作响，全是一个琢磨了好几周的念头。他叫亚历山大·莫德温采夫（Alexander Mordvintsev）。于是他坐到电脑前，开始敲代码。

凌晨两点，他弄出了点东西。他把一张普通照片喂进一个神经网络，命令机器把它"以为自己看到的"统统放大，然后等着。回瞪着他的，是一场噩梦：天空里爬满了狗鼻子，树上长出了眼球，云朵凝结成长着太多张脸的鼻涕虫小狗。他把图发到了谷歌的内部社交网络上，然后去睡觉了。

几周之内，整个互联网都被这些幻视出来的狗脸覆盖了。问题是，到今天也没人能完全说清，那台机器到底"看见"了什么。咱们慢慢说。

Izquierda: Foto original de Zachi Evenor. Derecha: procesado por Günther Noack, Ingeniero de Software — Wikimedia Commons, Zachi Evenor,Günther Noack (CC BY-SA 3.0)

有据可查的事实

这项技术在2015年6月18日有了正式的名字。那天谷歌发布了一篇博客，标题叫《Inceptionism：深入神经网络》，署名是莫德温采夫和同事克里斯托弗·奥拉（Christopher Olah）、迈克·泰卡（Mike Tyka）（谷歌研究院）。

核心戏法是这样的，而且简单得漂亮。神经网络平时是用来给图片做分类的：你给它看一张照片，它说"这是一根香蕉"。DeepDream把同一台机器倒过来跑。你给它看一张照片，等于在说："不管你觉得里面有什么，给我放大它。"网络找到模式的微弱痕迹，加强它，再看一遍，再加强。来来回回，几十次。微弱的痕迹变成了响亮的、无法否认的、不可能存在的物体（谷歌研究院）。

莫德温采夫本来不是想搞艺术。他是个新工程师，只是想戳一戳这些网络内部到底是怎么运作的。"神经网络是为图像分类而设计的系统，"他后来说，"我想让它做一些它本不该做的事，比如检测某些模式的痕迹。"（Artnome）

那为什么是狗？为什么这么多狗？这一段是真有据可查的，不是瞎猜。莫德温采夫用的那个网络，是在ImageNet上训练的——那是一个巨大的、贴好标签的照片库。而这个数据集里有一块出了名的部分，要求AI分辨120种不同的狗品种——非常精细的活儿，比如区分比格犬和巴塞特猎犬。要通过这道测试，网络就不得不变得对狗的各个部位走火入魔：耳朵、鼻子，尤其是眼睛。等你再让这样一个网络去"多看一点"，它伸手抓的，就是它最熟悉的东西（Fast Company；Artnome）。

眼睛之所以到处冒出来，原因也相关：在各种动物身上，眼睛都是视觉系统最容易抓住、最可靠、最反复出现的形状之一。网络早就学会了"像眼睛"的斑块是个绝佳线索，于是它就慷慨地把眼睛撒得到处都是。

2015年7月，谷歌在GitHub上把代码开源了（github.com/google/deepdream）。几乎是一夜之间，DeepDream成了可以说是第一个走进大众视野的AI图像生成器——从深度伪造（deepfake）到今天会画画的聊天机器人，这一切迷幻的祖先就是它。如今研究者把这种效果叫做"算法空想性错视"（algorithmic pareidolia）：跟你在墙上插座里看出一张人脸是同一种大脑小故障，只不过这回发生在机器里头（维基百科：Caffe)）。

DeepDream image which started with white noise. — Wikimedia Commons, MartinThoma (CC0)

那个真正悬而未决的问题

接下来就开始变得滑溜了，连诚实的人也会各执一词。

我们能说清DeepDream做了什么。我们甚至能说清它为什么偏爱狗和眼睛——那是训练数据在说话。但还有一个更深的问题，研究者至今仍在角力：像这样一张图，到底是告诉了我们网络在"想"什么，还是只告诉了我们——当你把它逼到悬崖边上，它会做出什么反应？

DeepDream的诞生，部分是作为一种调试工具——一个能往黑箱里窥探的窗口，用来检查AI到底是学到了真正的概念，还是只学了些廉价的投机取巧。但一张DeepDream图像，是网络运行在一种它从未被设计去承受的、极端而反常的模式下。所以诚实的开放性难题就在这里：那些幻觉里，有多少真正反映了AI内在的"理解"，又有多少只是把旋钮拧到顶之后冒出来的一个怪异副产物？

这可不是一个已有定论的小脚注。整个AI可解释性领域——也就是搞清楚这些系统内部到底表征了什么——至今仍是一片广阔的未知，而DeepDream，正坐在这片混乱的起点上。

各种理论与解读

咱们把谨慎的和疯狂的分开。下面这些全都是解读，不是已被确立的事实。

理论一：它是"吃了什么"的镜子（证据充分）。 最站得住脚的读法是，DeepDream不过是把网络的偏见照给你看。喂一个模型120种狗，它就梦见狗；换一个数据集，拿各种地点去训练另一个模型，它就改梦见塔楼、拱门和窗户。这些图片不是什么魔法——它们是机器被喂了什么的倒影（谷歌研究院）。这是大多数专家都认可的解释。

理论二：它是通往机器"想象力"的窗口（推测性）。 一些作家和艺术家主张，DeepDream揭示了某种类似创造性内心世界的东西——网络是在某种有意义的意义上"做梦"。这种说法很有诗意，也很流行，但它是推测。没有任何证据表明网络体验到了什么。它只是在做数学，飞快地做。

理论三：它证明AI正在变得有感知、有意识（未经证实）。 在网上，DeepDream那些诡异的、缀满眼球的输出，给"AI醒了"甚至"AI接通了现实某个隐藏层面"之类的说法添了一把火。把话说清楚：这没有得到证实，也得不到任何科学的支持。 那副令人不安的样子，是训练数据加上失控的反馈循环造成的副作用，而不是一个正在苏醒的心智的迹象。

理论四："噩梦"那条线（传说，但很迷人）。 因为莫德温采夫是从一个噩梦中惊醒后才造出它的，于是冒出了一个工整的故事，说这台机器不知怎么地在传导人类的噩梦。说说挺有意思。但那个梦只是把他从床上叫了起来——狗是从ImageNet来的，不是从他的潜意识来的（Artnome）。

资料来源与延伸阅读

DeepDream教会我们的是：一个AI最古怪的行为，其实是一份关于我们喂了它什么的供词。而这就引出了一个更让人坐立不安的问题，直指我们今天每天在用的聊天机器人和深度伪造引擎：如果一台只认识狗的机器会梦见狗，那么那些拿我们所有人去训练的机器，正在学着看见什么？

还没看够？下一个谜在这里

谷歌DeepDream：早期AI为什么满眼都是狗和眼睛？

有据可查的事实

那个真正悬而未决的问题

各种理论与解读

资料来源与延伸阅读

深度伪造的离奇速成史：从实验室小把戏到2500万美元的惊天劫案

ELIZA（1966）：世界第一个聊天机器人，以及我们为何至今仍信任那个根本听不懂我们的AI

洛阿布：那个 AI 怎么删都删不掉的「闹鬼」女人