Gary Marcus：文本生成圖像系統理解不了世界離AGI還差得遠

自從 DALL-E 2 問世以來，很多人都認為，能夠繪製逼真圖像的 AI 是邁向通用人工智能（AGI）的一大步。OpenAI 的 CEO
Sam Altman 曾在 DALL-E 2 發布的時候宣稱“AGI is going to be
wild”，媒體也都在渲染這些系統對於通用智能進展的重大意義。

但真的是如此嗎？知名 AI 學者（給 AI 潑冷水愛好者） Gary Marcus 表示“持保留意見”。

最近，他提出，在評估 AGI 的進展時，關鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統是否真正理解世界，從而能夠根據這些知識進行推理並進行決策。

在判斷這些系統之於 AI （包括狹義和廣義的 AI）的意義時，我們可以提出以下三個問題：

圖像合成系統能否生成高質量的圖像？
它們能否將語言輸入與它們產生的圖像關聯起來？
它們了解它們所呈現出的圖像背後的世界嗎？

1.AI 不懂語言與圖像的關聯

在第一個問題上，答案是肯定的。區別只在於，在用 AI 生成圖像這件事兒上，經過訓練的人類藝術家能做得更好。

在第二個問題上，答案就不一定了。在某些語言輸入上，這些系統能表現良好，比如下圖是 DALL-E 2 生成的“騎着馬的宇航員”：

但在其他一些語言輸入上，這些 AI 就表現欠佳、很容易被愚弄了。比如前段時間 Marcus 在Twitter上指出，這些系統在面對“騎着宇航員的馬”時，難以生成對應的準確圖像：

儘管深度學習的擁護者對此進行了激烈的反擊，比如
AI 研究員 Joscha Bach 認為“Imagen 可能只是使用了錯誤的訓練集”，機器學習教授 Luca Ambrogioni
反駁說，這正表明了“Imagen 已經具有一定程度的常識”，所以拒絕生成一些荒謬的東西。

還有一位Google的科學家 Behnam Neyshabur 提出，如果“以正確的方式提問”，Imagen 就可以畫出“騎着宇航員的馬”：

但是，Marcus 認為，問題的關鍵不在於系統能否生成圖像，聰明的人總能找到辦法讓系統畫出特定的圖像，但這些系統並沒有深刻理解語言與圖像之間的關聯，這才是關鍵。

2.不知道自行車輪子是啥怎麼能稱是AGI？

系統對語言的理解還只是一方面，Marcus
指出，最重要的是，判斷 DALL-E 等系統對 AGI
的貢獻最終要取決於第三個問題：如果系統所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉換為圖像，它們可能會徹底改變人類藝術，但仍然不能真正與
AGI 相提並論，也根本代表不了 AGI。

讓 Marcus 對這些系統理解世界的能力感到絕望的是最近的一些例子，比如平面設計師 Irina Blok 用 Imagen 生成的“帶有很多孔的咖啡杯”圖像：

正常人看了這張圖都會覺得它違反常識，咖啡不可能不從孔里漏出來。類似的還有：

“帶有方形輪子的自行車”

“布滿仙人掌刺的廁紙”

說“有”容易說“無”難，誰能知道一個不存在的事物應當是什麼樣？這也是讓 AI 繪製不可能事物的難題所在。

但又或許，系統只是“想”繪製一個超現實主義的圖像呢，正如 DeepMind 研究教授 Michael Bronstein 所說的，他並不認為那是個糟糕的結果，換做是他，也會這樣畫。

那麼如何最終解決這個問題呢？Gary Marcus 在最近同哲學家 Dave Chalmers 的一次交談中獲得了新的靈感。

為了了解系統對於部分和整體、以及功能的認識，
Gary Marcus 提出了一項對系統性能是否正確有更清晰概念的任務，給出文本提示“Sketch a bicycle and label
the parts that roll on the ground”（畫出一輛自行車並標記出在地面上滾動的部分），以及“Sketch a
ladder and label one of the parts you stand on”（畫出一個梯子並標記出你站立的部分）。

這個測試的特別之處在於，並不直接給出“畫出一輛自行車並標記出輪子”、“畫出一個梯子並標記出踏板”這樣的提示，而是讓 AI 從“地面上滾動的部分”、“站立的部分”這樣的描述中推理出對應的事物，這正是對 AI 理解世界能力的考驗。

但 Marcus 的測試結果表明，Craiyon（以前稱為 DALL-E mini）在這種事情上做得一塌糊塗，它並不能理解自行車的輪子和梯子的踏板是什麼：