馬庫斯對賭馬斯克：深度學習撞牆了楊立昆有話說

一面是“深度學習(DL, Deep Learning)撞牆了”的呼喊，一面是馬上就能造出類人AI的喜悅。“深度學習三巨頭”之一的Yann
LeCun（楊立昆）終於坐不住了。當地時間6月16日，Yann
LeCun撰文《關於智能，AI能告訴我們什麼》首次正面回應深度學習當下面臨的問題。LeCun寫道，“從一開始，批評者就過早地認為神經網絡已經遇到了不可翻越的牆，但每次都被證明只是一個暫時的障礙。”

LeCun認為，這是一場關於深度學習前景的辯論。辯論的核心是對符號在智能中的作用存在兩種不同的看法：一種認為符號推理必須從一開始就被硬編碼，另一種認為機器可以像人類一樣從經驗中學習。這涉及到我們應該如何理解人類智能，進而去追求人類水平的人工智能。

對賭世界首富馬斯克，五十萬美元獎金池已備好

2012年，Geoffrey Hinton帶領的團隊一鳴驚人奪得ImageNET大規模視覺識別挑戰賽(ILSVRC)冠軍。此後，深度學習成為人工智能研究的主要焦點。

深度學習已經在曾經對計算機非常具有挑戰性的很多任務上取得了進展，包括圖像分類、對象檢測、語音識別和自然語言處理。它的表現甚至讓人覺得造出類人的智能體也指日可待，埃隆·馬斯克在推特放言，“2029年感覺是關鍵一年。如果那時我們還沒有AGI（通用人工智能），我會感到驚訝。希望火星上的人也一樣。”

馬斯克的言論在AI社區中激起眾多反對聲音，知名AI科學家、紐約大學教授加里·馬庫斯（Gary Marcus）提出與馬斯克對賭10萬美元。馬庫斯與紐約大學計算機科學家Ernest Davis合作編製以下五個檢驗AGI是否實現的標準，作為打賭的內容：

2029年，AI無法看懂電影然後準確告訴你正在發生的事情（人物是誰、他們的衝突和動機是什麼等）；

2029年，AI無法閱讀小說並可靠地回答有關情節、人物、衝突、動機等的問題；

2029年，AI無法在任何廚房中擔任稱職的廚師；

2029年，AI無法通過自然語言規範或與非專家用戶的交互可靠地構建超過10000行的無錯誤代碼（將現有庫中的代碼粘合在一起不算數）；

2029年，AI無法從以自然語言編寫的數學文獻中任意取證，並將其轉換為適合符號驗證的符號形式。

“這是我的建議，如果你（或任何其他人）在2029年設法完成至少三個，就算你贏了。十萬美元如何？”馬庫斯寫道。

馬庫斯發出這條推特幾個小時之內，發布賭局的網站瀏覽量就接近1萬次，獎金池目前已增加到50萬美元，由作家凱文·凱利（Kevin Kelly）提出在他的網站上進行託管。但馬斯克再無回應。

馬庫斯對馬斯克說道，“比如你在2015年說過，實現完全自動駕駛的汽車還需要兩年時間，從那以後，你幾乎每年都說一遍同樣的話，可現在完全自動駕駛仍未實現。”

馬庫斯一直對深度學習的技術路徑有所懷疑，他曾寫了一本關於深度學習的限制的書，他支持將不同AI技術結合在一起的混合方法。3月中旬，馬庫斯曾經撰文《深度學習撞牆了》，認為純粹端到端的深度學習快走到盡頭，整個AI領域必須另尋出路。

混合方法VS純深度學習：馬庫斯嗆聲Hinton

終於，6月1日，一向深居簡出的Geoffrey Hinton在加州伯克利教授Pieter Abbeel的播客節目中談到了這個話題，“如果有人說（深度學習）撞牆了，那麼他們只需列出一張清單，列出深度學習無法做到的事情。5年後，我們就能證明深度學習做到了。”

於是，馬庫斯在推特上寫了一封給Geoffrey Hinton的公開信，又提到了他與Ernest Davis合作編製的五條判斷AGI的標準，意思是其已經在與馬斯克的賭局裡把深度學習不能做的事列出來了。

深度學習的缺點確實隨着發展日益清晰，包括其有限的泛化性、與因果關係的鬥爭和缺乏可解釋性。此外，大多數深度學習應用程序需要大量手動註釋的訓練示例，這也成了瓶頸。但在三位以其對深度學習的開創性貢獻而聞名的圖靈獎得主Geoffrey Hinton、Yoshua Bengio和Yann LeCun看來，更好的神經網絡架構最終將克服深度學習的當前限制。

LeCun在文章中寫道，“今天看似不可逾越的牆是符號推理，即以代數或邏輯的方式操縱符號的能力。我們知道，解決數學問題需要根據嚴格的規則逐步處理符號。作為《The Algebraic Mind》的作者和《Rebooting AI》的作者之一，Gary Marcus最近聲稱深度學習無法進一步取得進展，因為神經網絡在處理符號操作方面存在困難。然而，許多深度學習研究人員確信深度學習已經在進行符號推理並將持續改進。”

其實，LeCun在5月份也發推文表示，“我相信我們需要找到新的概念，讓機器能夠：通過像嬰兒一樣觀察來了解世界是如何運作的。學會預測一個人如何通過採取行動來影響世界。”但這裡說的跟馬庫斯倡導的不是同一回事，LeCun正在研究的是一種更複雜的自我監督學習，馬庫斯則支持混合方法。

最近獲得關注的一種混合方法是神經符號人工智能，這是人工智能的一個分支，曾隨着深度學習的興起而被淘汰。它將人工神經網絡與符號系統相結合，但將人類專業知識提煉成一套規則，事實證明是非常困難、耗時且昂貴的，這也被稱為“知識獲取瓶頸”。雖然為數學或邏輯編寫規則很簡單，但世界本身卻非常模稜兩可，事實證明，不可能為每個模式編寫規則或為模糊概念定義符號。

在3月IBM神經符號AI研討會上的一次演講中，麻省理工學院計算認知科學教授Joshua Tenenbaum（約書亞·特南鮑姆）解釋了當前神經符號系統如何幫助解決AI系統的一些關鍵問題，包括缺乏常識和因果關係、組合性和直覺物理學。

“我們如何超越智能的概念，即識別數據中的模式和近似函數，更多地走向人類思維對世界的建模——解釋和理解你所看到的事物，想象你看不到但可能發生的事情，並將它們變成你可以通過計劃行動和解決問題來實現的目標？”特南鮑姆認為，要彌合與人類智能之間的差距，首先要探索的就是人類和許多動物共有的智力的基本方面之一：直覺物理學和心理學。

特南鮑姆的神經符號AI概念中的一個關鍵組成部分是一個物理模擬器，將其集成到智能體的推理過程中，幫助AI實時模擬世界並預測未來會發生什麼。

由此可以大致理解當下的神經符號系統AI思路。同時，這種方式也被證明比純深度學習系統需要更少的數據和計算資源。

這就引出了另一個問題——人工智能的範式轉變。馬庫斯又開了新的賭局，他認為我們90%需要人工智能的範式轉變，而SlateStarCodex的名人Scott Alexander則認為要低於60%。

LeCun提出爭論本質：智能如何運作？什麼使人類獨特？

LeCun在文章中指出，馬庫斯對深度學習的批評源於認知科學（以及在哲學中更古老）的一場相關鬥爭，即智能如何產生以及什麼使人類獨特。他的想法與心理學中一個著名的“先天理論”學派一致，該學派認為認知的許多關鍵特徵是與生俱來的——實際上，我們在很大程度上天生就有一個關於世界如何運作的直觀模型。

這種與生俱來架構的一個核心特徵就是符號操縱的能力。但這是整個自然界中均有的還是人類特有的，尚存在爭議。對於馬庫斯來說，這種符號操縱能力是許多常識的基本特徵的基礎：遵循規則、抽象、因果推理、重新識別細節、概括等。簡而言之，我們對世界的大部分理解都是自然賦予的，而學習則是充實細節的過程。

另一種“經驗主義”觀點則認為：符號操縱在自然界中是罕見的，主要伴隨着人類祖先在過去兩百萬年中逐漸獲得的學習交流能力而產生的。根據這種觀點，認知能力主要是與提高生存率相關的非符號學習能力，如快速識別獵物、預測它們的可能行為以及發展熟練的反應。這個觀點假設絕大多數複雜的認知能力是後天獲得的，是通過一種普遍的、自監督的學習能力獲得。這是一種通過經驗獲得直觀世界模型的能力，這個世界模型具備常識的核心特徵。它還假設，我們大多數複雜的認知能力都不依賴於符號操縱，相反是通過模擬各種場景並預測最佳結果來做到這一點。

這種經驗主義觀點將符號和符號操縱視為另一種學習能力，隨着人類越來越依賴合作行為取得成功就獲得了這種能力。這種觀點將符號視為人類用來協調合作活動的發明——如文字，地圖、標誌性描繪、儀式甚至社會角色。這些能力被認為是由於越來越長的學習青春期和對更精確、更專業的技能（如工具製造和消防維修）需求的結合而產生的。這一觀點認為符號和符號操作主要歸於文化發明，較少依賴於大腦中的硬接線（hard wiring），而更多地依賴於我們日益複雜的社會生活。

這兩種觀點之間的差異非常明顯。

對於先天論來說，符號和符號操縱本就在大腦之中，而文字和數字的使用正是從這種原始能力中衍生出來的。這種觀點很具吸引力地解釋了一系列源於進化適應的能力（儘管對於符號操縱如何或為何進化的解釋一直存在爭議）。

對於經驗主義者來說，符號和符號推理是用於交流目的的有用發明，它源於一般的學習能力和複雜的社會世界。這些內部計算和內心獨白等發生在我們頭腦中的象徵性東西，因而被視為源自數學和語言使用的外部實踐。

人工智能和認知科學領域密切相關，因此這些爭論的重演也就不足為奇了。人工智能領域中任一觀點的成功，都會在部分程度上證明認知科學中的一種或另一種方法是正確的（但也僅是部分程度上），因此這些爭論之激烈也就不足為奇了。現在面臨的問題不僅是關於人工智能當代問題的正確方法，還有關於什麼是智能以及大腦如何工作的問題。

如果馬庫斯和先天論者是對的，那麼深度學習將永遠無法實現類人的AI，無論它提出了多少新架構或投入了多少計算能力。不斷添加更多層只會令人困惑，因為真正的符號操縱需要一個與生俱來的符號操縱者。而且，由於這種符號操作是幾種常識能力的基礎，因此深度學習系統將永遠不會擁有任何東西，只能擁有對事物粗略、現成的理解。

相比之下，如果深度學習的倡導者和經驗主義者是正確的，那麼插入符號操縱模塊的想法是令人困惑的。在這種情況下，深度學習系統已經在進行符號推理，並將繼續改進它，因為它們通過更多的多模態自監督學習、越來越有用的預測世界模型以及用於模擬的工作內存的擴展以及評估結果來滿足約束。引入符號操縱模塊不會導致更像人類的AI，而是迫使所有“推理”通過一個不必要的瓶口，讓我們與類人智能漸行漸遠。這可能會切斷深度學習最令人印象深刻的方面之一：它能夠提出比人類程序員想象的更有用和更聰明的解決方案。

儘管賭注很高，但同樣重要的是，這些辯論中提出的許多問題至少在某種程度上是次要的。比如一些討論：深度學習系統中的高維向量應該被視為離散符號（可能不是），實現深度學習系統所需的代碼行是否使其成為混合系統（語義），在複雜遊戲中獲勝是否需要手工的、特定領域的知識，或者它是否可以學習（說得太早了）。還有一個問題是混合系統是否有助於解決圍繞人工智能的倫理問題（否）。

而這一切都不是為了證明這場愚蠢的炒作是合理的：當前的系統沒有意識——它們並不能理解我們，強化學習還不夠，你不能僅僅通過擴大規模來建立類人智能。但所有這些問題都與主要爭論無關：符號操縱是否需要硬編碼，還是可以學習？

這是停止研究混合模型的呼籲嗎？當然不是。研究人員自1980年代以來一直在研究混合模型，但尚未證明它們是靈丹妙藥——或者在許多情況下，甚至遠不及神經網絡。更廣泛地說，人們應該懷疑深度學習是否已達到極限。

LeCun在結尾中寫道，鑒於最近DALL-E 2、Gato和PaLM中任務的持續、增量改進，避免將障礙誤認為牆壁似乎是明智之舉。深度學習不可避免的失敗之前就已經預料到了，但押注它是不值得的。

記者 / 邵文