Google DeepDream:早期 AI 為什麼把狗和眼睛塞滿整個畫面?
2015年,一個 Google 神經網路開始在雲、樹和天空裡「看見」狗臉和眼球。這是 DeepDream 的真實故事——史上第一波爆紅的 AI 藝術,以及它留下的那個沒人答得出來的謎。
蘇黎世一間公寓,2015年5月18日,剛過午夜。一位年輕的 Google 工程師——Alexander Mordvintsev——猛地驚醒,確信自己聽到了聲音。其實沒有。但他已經完全清醒,腦袋裡嗡嗡作響,纏著一個他咀嚼了好幾週的點子。於是他坐到電腦前,開始打字。
凌晨兩點,他做出了東西。他把一張普通照片餵進神經網路,告訴機器:把你以為自己看到的東西,給我誇張放大。然後等。回瞪他的,是一場惡夢:天空爬滿狗鼻子,樹上長出眼球,雲朵凝結成長著太多張臉的鼻涕蟲狗寶寶。他把圖片貼到 Google 內部的社群網站,然後上床睡覺。
幾週之內,整個網路都會被同一批產生幻覺的狗淹沒。但問題是:到今天,沒有人能完全說清楚,那台機器到底「看見」了什麼。我們來把這件事說明白。

有憑有據的事實
這項技術在2015年6月18日有了正式名字。那天 Google 發了一篇部落格文章,標題叫〈Inceptionism:更深入神經網路〉,掛名作者是 Mordvintsev,以及他的同事 Christopher Olah 和 Mike Tyka(Google Research)。
核心的招式很簡單,簡單得漂亮。神經網路平常是用來「分類」圖片的:你給它一張照片,它說「這是香蕉」。DeepDream 把同一台機器倒過來跑。你給它一張照片,等於是對它說:「不管你覺得裡面有什麼,多給我一點。」網路找到圖案的微弱蛛絲馬跡,把它加強,再看一次,再加強一點。一圈又一圈,跑上幾十次。微弱的暗示變成響亮、不容否認、不可能存在的東西(Google Research)。
Mordvintsev 本來根本沒打算做藝術。他是個剛來的工程師,只是想戳一戳這些網路內部到底怎麼運作。「神經網路是設計來分類圖片的系統,」他後來說,「我想叫它做一些它不是設計來做的事,像是偵測某些圖案的痕跡。」(Artnome)
那麼,為什麼是狗?為什麼狗這麼多?這部分是真的有紀錄的,不是猜的。Mordvintsev 用的那個網路,是拿 ImageNet 訓練出來的——那是一個巨大的、貼好標籤的照片資料庫。而其中有一塊很有名的資料,要求 AI 分辨120種不同的狗品種——非常細的東西,米格魯對上巴吉度獵犬。為了通過這項測驗,網路必須變得對狗的部位走火入魔:耳朵、鼻子,尤其是眼睛。所以當你接著叫這樣一個網路「看更多」,它自然就抓住它最熟的東西不放(Fast Company;Artnome)。
眼睛到處冒出來,原因相關但稍有不同:在各種動物身上,眼睛是視覺系統最能依靠、最會重複出現的形狀之一。網路學到了「像眼睛」的團塊是個超棒的線索,於是它就慷慨地把眼睛灑得到處都是。
2015年7月,Google 把程式碼開源放上 GitHub(github.com/google/deepdream)。幾乎是一夜之間,DeepDream 成了——可以說——史上第一個走進大眾視野的 AI 圖像生成器:從深偽(deepfake)到今天會畫圖的聊天機器人,這一切迷幻的老祖宗。研究人員現在把這個效應叫做「演算法空想性錯視」(algorithmic pareidolia):就是讓「你」在牆上插座看到一張臉的那種大腦小故障,只不過這次發生在機器裡面(Wikipedia:Caffe))。

真正沒有答案的謎
接下來就滑溜了,連誠實的人都會吵起來。
我們可以說出 DeepDream「做」了什麼。我們甚至可以說出它「為什麼」愛狗和眼睛——那是訓練資料在說話。但底下還有一個更深的問題,研究人員到今天還在角力:像這樣的一張圖,到底告訴了我們網路「在想什麼」,還是只告訴了我們,把它推下懸崖時它會做什麼?
DeepDream 一開始有一部分是當成除錯工具來打造的——一種偷看黑盒子內部、檢查 AI 到底學到了真正的概念、還是只學了廉價捷徑的方法。但一張 DeepDream 圖,是網路在一種極端、不自然、它從來不是被設計來運作的模式下跑出來的。所以誠實的開放難題就是這個:那份幻覺裡,有多少反映了 AI 真正的內在「理解」,又有多少只是把旋鈕轉到最大時跑出來的怪異副產物?
這不是一個已經有定論的小註腳。整個「AI 可解釋性」的領域——搞清楚這些系統內部到底表徵了什麼——至今仍然完全敞開,而 DeepDream 就坐在它那團亂麻的起點上。
各種理論與解讀
我們把謹慎的和瘋狂的分開來。底下全部都是解讀,不是已確立的事實。
理論一:它是自己食譜的鏡子(證據充足)。 最站得住腳的讀法是:DeepDream 就只是把網路的偏好攤給你看。餵一個模型120種狗品種,它就夢到狗;拿一個不同的、關於各地場所的資料庫去訓練另一個模型,它夢到的就會是高塔、拱門和窗戶。這些圖片不是魔法——它們是機器被餵了什麼的倒影(Google Research)。這是大多數專家接受的解釋。
理論二:它是通往機器「想像力」的一扇窗(推測性)。 有些作家和藝術家主張,DeepDream 揭露了某種類似創造性內在生命的東西——說網路在某種有意義的層次上是在「做夢」。這很有詩意,也很受歡迎,但它是推測。沒有任何證據顯示網路體驗到了任何東西。它在做數學,做得非常快。
理論三:它證明 AI 正在變得有感知、有意識(未經證實)。 在網路上,DeepDream 那些詭異、灑滿眼球的輸出,助長了「AI 醒了」、甚至「它接通了某層隱藏現實」的說法。把話講清楚:這未經證實,也沒有任何科學支持。 那令人不安的外觀,是訓練資料加上失控回饋的副作用,不是一顆正在甦醒的心智的徵兆。
理論四:「惡夢」的連結(傳說,但很迷人)。 因為 Mordvintsev 是在從惡夢中驚醒後做出它的,於是長出了一個整齊的故事:說這台機器不知怎地通著人類的惡夢。講起來很有趣。但那場夢只是把他從床上叫起來而已——狗來自 ImageNet,不是來自他的潛意識(Artnome)。
資料來源與延伸閱讀
- Inceptionism:更深入神經網路 — Google Research 部落格(2015)
- Google 的 Deep Dream AI 為什麼會產生狗臉幻覺 — Fast Company
- DeepDream 創造者三年後首度公開最初的影像 — Artnome
- 深度神經網路與致幻影像的故事 — Google Arts & Culture/Barbican
- DeepDream 原始程式碼 — github.com/google/deepdream
- Caffe(軟體)— Wikipedia)
DeepDream 教會我們一件事:一個 AI 最古怪的行為,其實是一份關於「我們餵了它什麼」的自白。而這對我們今天在用的聊天機器人和深偽引擎,丟出了一個更讓人坐立難安的問題:如果一台只認識狗的機器會夢到狗,那麼那些拿「我們所有人」去訓練的機器,正在學著看見什麼?
深偽的離奇進化史:從實驗室小把戲,到一場2,500萬美元的搶劫
深偽技術怎麼從2014年的AI實驗,變成換臉假影片和百萬美元詐騙?一篇看懂深偽科技離奇又快速的進化史。
ELIZA(1966):史上第一個聊天機器人,以及我們為何至今仍相信一台聽不懂人話的AI
1966年,麻省理工一支簡單的程式ELIZA,竟讓親手寫它的人的祕書要求單獨相處。ELIZA效應,解釋了我們今天為何仍會信任聊天機器人、AI有意識的說法,還有AI伴侶。
Loab:那個 AI 怎麼刪都刪不掉、不停畫出來的『鬧鬼』女人
一個雙眼空洞的女人,不斷從 AI 生圖工具裡爬出來,沒人刪得掉她。深入 Loab——這個誕生於負面提示詞與潛在空間的病毒級詛咒影像。