AI奇聞異事

Google DeepDream：早期 AI 為什麼把狗和眼睛塞滿整個畫面？

作者： The Unsolved Report Editorial Team · 發表於 2019-01-14

2015年，一個 Google 神經網路開始在雲、樹和天空裡「看見」狗臉和眼球。這是 DeepDream 的真實故事——史上第一波爆紅的 AI 藝術，以及它留下的那個沒人答得出來的謎。

蘇黎世一間公寓，2015年5月18日，剛過午夜。一位年輕的 Google 工程師——Alexander Mordvintsev——猛地驚醒，確信自己聽到了聲音。其實沒有。但他已經完全清醒，腦袋裡嗡嗡作響，纏著一個他咀嚼了好幾週的點子。於是他坐到電腦前，開始打字。

凌晨兩點，他做出了東西。他把一張普通照片餵進神經網路，告訴機器：把你以為自己看到的東西，給我誇張放大。然後等。回瞪他的，是一場惡夢：天空爬滿狗鼻子，樹上長出眼球，雲朵凝結成長著太多張臉的鼻涕蟲狗寶寶。他把圖片貼到 Google 內部的社群網站，然後上床睡覺。

幾週之內，整個網路都會被同一批產生幻覺的狗淹沒。但問題是：到今天，沒有人能完全說清楚，那台機器到底「看見」了什麼。我們來把這件事說明白。

Izquierda: Foto original de Zachi Evenor. Derecha: procesado por Günther Noack, Ingeniero de Software — Wikimedia Commons, Zachi Evenor,Günther Noack (CC BY-SA 3.0)

有憑有據的事實

這項技術在2015年6月18日有了正式名字。那天 Google 發了一篇部落格文章，標題叫〈Inceptionism：更深入神經網路〉，掛名作者是 Mordvintsev，以及他的同事 Christopher Olah 和 Mike Tyka（Google Research）。

核心的招式很簡單，簡單得漂亮。神經網路平常是用來「分類」圖片的：你給它一張照片，它說「這是香蕉」。DeepDream 把同一台機器倒過來跑。你給它一張照片，等於是對它說：「不管你覺得裡面有什麼，多給我一點。」網路找到圖案的微弱蛛絲馬跡，把它加強，再看一次，再加強一點。一圈又一圈，跑上幾十次。微弱的暗示變成響亮、不容否認、不可能存在的東西（Google Research）。

Mordvintsev 本來根本沒打算做藝術。他是個剛來的工程師，只是想戳一戳這些網路內部到底怎麼運作。「神經網路是設計來分類圖片的系統，」他後來說，「我想叫它做一些它不是設計來做的事，像是偵測某些圖案的痕跡。」（Artnome）

那麼，為什麼是狗？為什麼狗這麼多？這部分是真的有紀錄的，不是猜的。Mordvintsev 用的那個網路，是拿 ImageNet 訓練出來的——那是一個巨大的、貼好標籤的照片資料庫。而其中有一塊很有名的資料，要求 AI 分辨120種不同的狗品種——非常細的東西，米格魯對上巴吉度獵犬。為了通過這項測驗，網路必須變得對狗的部位走火入魔：耳朵、鼻子，尤其是眼睛。所以當你接著叫這樣一個網路「看更多」，它自然就抓住它最熟的東西不放（Fast Company；Artnome）。

眼睛到處冒出來，原因相關但稍有不同：在各種動物身上，眼睛是視覺系統最能依靠、最會重複出現的形狀之一。網路學到了「像眼睛」的團塊是個超棒的線索，於是它就慷慨地把眼睛灑得到處都是。

2015年7月，Google 把程式碼開源放上 GitHub（github.com/google/deepdream）。幾乎是一夜之間，DeepDream 成了——可以說——史上第一個走進大眾視野的 AI 圖像生成器：從深偽（deepfake）到今天會畫圖的聊天機器人，這一切迷幻的老祖宗。研究人員現在把這個效應叫做「演算法空想性錯視」（algorithmic pareidolia）：就是讓「你」在牆上插座看到一張臉的那種大腦小故障，只不過這次發生在機器裡面（Wikipedia：Caffe)）。

DeepDream image which started with white noise. — Wikimedia Commons, MartinThoma (CC0)

真正沒有答案的謎

接下來就滑溜了，連誠實的人都會吵起來。

我們可以說出 DeepDream「做」了什麼。我們甚至可以說出它「為什麼」愛狗和眼睛——那是訓練資料在說話。但底下還有一個更深的問題，研究人員到今天還在角力：像這樣的一張圖，到底告訴了我們網路「在想什麼」，還是只告訴了我們，把它推下懸崖時它會做什麼？

DeepDream 一開始有一部分是當成除錯工具來打造的——一種偷看黑盒子內部、檢查 AI 到底學到了真正的概念、還是只學了廉價捷徑的方法。但一張 DeepDream 圖，是網路在一種極端、不自然、它從來不是被設計來運作的模式下跑出來的。所以誠實的開放難題就是這個：那份幻覺裡，有多少反映了 AI 真正的內在「理解」，又有多少只是把旋鈕轉到最大時跑出來的怪異副產物？

這不是一個已經有定論的小註腳。整個「AI 可解釋性」的領域——搞清楚這些系統內部到底表徵了什麼——至今仍然完全敞開，而 DeepDream 就坐在它那團亂麻的起點上。

各種理論與解讀

我們把謹慎的和瘋狂的分開來。底下全部都是解讀，不是已確立的事實。

理論一：它是自己食譜的鏡子（證據充足）。 最站得住腳的讀法是：DeepDream 就只是把網路的偏好攤給你看。餵一個模型120種狗品種，它就夢到狗；拿一個不同的、關於各地場所的資料庫去訓練另一個模型，它夢到的就會是高塔、拱門和窗戶。這些圖片不是魔法——它們是機器被餵了什麼的倒影（Google Research）。這是大多數專家接受的解釋。

理論二：它是通往機器「想像力」的一扇窗（推測性）。 有些作家和藝術家主張，DeepDream 揭露了某種類似創造性內在生命的東西——說網路在某種有意義的層次上是在「做夢」。這很有詩意，也很受歡迎，但它是推測。沒有任何證據顯示網路體驗到了任何東西。它在做數學，做得非常快。

理論三：它證明 AI 正在變得有感知、有意識（未經證實）。 在網路上，DeepDream 那些詭異、灑滿眼球的輸出，助長了「AI 醒了」、甚至「它接通了某層隱藏現實」的說法。把話講清楚：這未經證實，也沒有任何科學支持。 那令人不安的外觀，是訓練資料加上失控回饋的副作用，不是一顆正在甦醒的心智的徵兆。

理論四：「惡夢」的連結（傳說，但很迷人）。 因為 Mordvintsev 是在從惡夢中驚醒後做出它的，於是長出了一個整齊的故事：說這台機器不知怎地通著人類的惡夢。講起來很有趣。但那場夢只是把他從床上叫起來而已——狗來自 ImageNet，不是來自他的潛意識（Artnome）。

資料來源與延伸閱讀

DeepDream 教會我們一件事：一個 AI 最古怪的行為，其實是一份關於「我們餵了它什麼」的自白。而這對我們今天在用的聊天機器人和深偽引擎，丟出了一個更讓人坐立難安的問題：如果一台只認識狗的機器會夢到狗，那麼那些拿「我們所有人」去訓練的機器，正在學著看見什麼？

還沒看夠？下一個謎在這裡

Google DeepDream：早期 AI 為什麼把狗和眼睛塞滿整個畫面？

有憑有據的事實

真正沒有答案的謎

各種理論與解讀

資料來源與延伸閱讀

深偽的離奇進化史：從實驗室小把戲，到一場2,500萬美元的搶劫

ELIZA（1966）：史上第一個聊天機器人，以及我們為何至今仍相信一台聽不懂人話的AI

Loab：那個 AI 怎麼刪都刪不掉、不停畫出來的『鬧鬼』女人