給表情包都能猜電影，ChatGPT的「湧現」能力是哪兒來的？

現在，諸如 ChatGPT 這樣的大型語言模型已經足夠強大，它們已經開始表現出驚人的、讓人難以預測的行為。

在正式介紹這篇文章之前，我們先提個問題：下圖的表情符號描述的是什麼電影呢？

可能連你都猜不出來，這四個符號代表的電影是「海底總動員」，這一提示任務是去年評測大型語言模型（LLM）204 個任務中的其中一個任務。對於最簡單的 LLM 模型，給出的回答多少有點胡編亂造，它認為這部電影講述的是一個男人的故事；相對複雜一點的中型模型，給出的回答是「The Emoji Movie」，這時答案已經很接近了。不過最複雜的模型猜中了，給出「海底總動員」這一答案。

谷歌計算機科學家 Ethan Dyer 表示：「模型的這一行為令人感到驚訝。更令人驚訝的是，這些模型只使用指令：即接受一串文本作為輸入，而後預測接下來會發生什麼，並完全基於統計數據來不斷重複這個過程。」一些學者開始預計，擴大模型規模會提高解決已知任務的性能，但他們未預料到這些模型能突然處理這麼多新的、不可預測的任務。

Ethan Dyer 近期所做的一項調查表明，LLM 可以創造出數百種「湧現（emergent）」能力，即大型模型可以完成而小型模型無法完成某些任務的能力。顯然，隨着模型的擴展能力提升了，從簡單的乘法到生成可執行的計算機代碼，直到基於表情符號解碼電影。新的分析表明，對於某些任務和某些模型，存在一個複雜性閾值，一旦超過該閾值，模型的功能就會如火箭騰空般急速提升。不過研究者還指出模型擴展帶來的負面影響，即隨着複雜性的增加，一些模型在他們的響應 (response) 中表現出了新的偏見和不準確性。

斯坦福大學計算機科學家 Rishi Bommasani 表示：「在我所知道的所有文獻中，從未有討論過語言模型可以做這些事情。」去年，他幫助編製了一份包含數十種模型湧現行為的清單，其中包括 Ethan Dyer 項目中確定的幾種行為。如今，該清單仍然在繼續變長。

如今，研究人員不僅競相確定大模型湧現能力，而且還想弄清楚它們發生的原因和方式——本質上是試圖預測不可預測性。理解其湧現性可以揭示與人工智能和機器學習有關的深層問題的答案，比如複雜模型是否真的在做一些新的事情，或者只是變得非常擅長統計。此外，它還可以幫助研究人員利用潛在的好處並減少湧現的風險。

突然的湧現

生物學家、物理學家、生態學家和其他科學家使用湧現這一術語來描述當一大批事物作為一個整體行動時出現的自組織集體性行為。無生命原子的組合產生了活細胞；水分子創造了波浪；椋鳥群以不斷變化但可識別的隊形掠過天空的壯觀自然景象；細胞使肌肉運動和心臟跳動。至關重要的是，湧現能力出現在涉及許多獨立部分的系統中。但研究人員直到最近才能夠在 LLM 中記錄這種湧現能力，因為這些模型剛剛才發展到足夠巨大的規模。

語言模型已經存在了幾十年。直到大約五年前，最強大的模型還是基於循環神經網絡。這些模型本質上取用一串文本並預測下一個單詞是什麼。使模型循環的原因在於它從自己的輸出中學習：它的預測會反饋到網絡中以提高未來的性能。

2017 年，谷歌大腦（Google Brain）的研究人員推出了一種被稱為 Transformer 的新型架構。當循環網絡逐字分析句子時，Transformer 會同時處理所有單詞。這意味着 Transformer 可以并行處理大量文本。

「很可能是該模型從根本上學到了一些新的和不同的東西，而這些東西在較小規模的模型上是沒有的。」布朗大學的 Ellie Pavlick 表示。

通過增加模型中的參數數量以及其他因素，Transformers 能夠快速擴大語言模型的複雜性。這些參數可以被認為是單詞之間的連接，通過在訓練期間打亂文本，transformers 可以調整這些連接從而改進模型。模型中的參數越多，它就越能準確地建立連接，越接近於模仿人類語言。正如預期的那樣，OpenAI 研究人員在 2020 年進行的一項分析發現，模型隨着規模的擴大而提高了準確性和能力。

但大型語言模型的問世也帶來了很多真正意想不到的東西。隨着具有 1750 億個參數的 GPT-3 或可擴展到 5400 億個參數的谷歌 PaLM 等模型的出現，用戶開始描述越來越多的湧現行為。一位 DeepMind 工程師甚至報告說能夠說服 ChatGPT 承認它是一個 Linux 終端，並讓它運行一些簡單的數學代碼來計算前 10 個素數。值得注意的是，比起在真正的 Linux 設備上運行相同的代碼，它可以更快地完成任務。

與通過表情符號描述電影的任務一樣，研究人員沒有理由認為為預測文本而構建的語言模型會被說服用於模仿計算機終端。這些湧現行為中的許多都證明了零樣本或小樣本學習，它們描述了 LLM 擁有解決以前從未（或很少）遇到的問題的能力。Ganguli 說，這一直是人工智能研究的長期目標。這也表明 GPT-3 可以在零樣本設定中無需任何明確訓練數據的情況下解決問題，Ganguli 表示，「這讓我放棄了我正在做的事情，更多地參與到這項研究中。」

在這個研究領域裡，他並不孤單。大量研究人員已經發現了 LLM 可以超越其訓練數據限制的第一個線索，他們正在努力更好地理解湧現是什麼樣子的以及它是如何發生的。而要做的第一步就是徹底全面地記錄它。

Ethan Dyer 幫助探索了大型語言模型具有什麼樣意想不到的能力，以及它們會帶來什麼。-Gabrielle Lurie

超越模仿

2020 年，Dyer 和谷歌研究院的其他研究人員預測大型語言模型將產生變革性影響——但這些影響是什麼仍然是一個懸而未決的問題。因此，他們要求研究界提供有關困難且多樣化任務的例子，以記錄追蹤 LLM 可以做什麼的外部極限。這項工作被稱為 BIG-bench（Beyond the Imitation Game Benchmark）項目，借用了艾倫・圖靈 (Alan Turing) 模仿遊戲的名稱，目的是測試計算機是否能夠以讓人信服的人類方式回答問題。（這後來被稱為圖靈測試。）該研究組對 LLM 突然獲得前所未有新能力的例子特別感興趣。

正如人們所預料的那樣，在某些任務中，隨着複雜性的增加，模型的性能會得到更為穩定且可預測性的提升。而在其他任務上，擴大參數數量並沒有對模型性能產生任何改善。而對於大約 5% 的任務，研究人員發現了他們所謂的突破——在某個閾值範圍內，性能出現了快速、戲劇性的躍升。不過該閾值會因任務和模型而異。

例如，參數相對較少（僅有幾百萬）的模型可能無法成功完成三位數的加法或兩位數的乘法問題，但若擁有數百億參數，某些模型的運算準確性會飆升。類似的性能躍升也出現在其他的一些任務中，包括解碼國際音標、解讀單詞的字母、識別印度英語（印地語和英語的組合）段落中的冒犯性內容，以及生成與斯瓦希里語諺語類似的英語對應語。

但是，研究人員很快就意識到，模型的複雜性並不是其性能湧現的唯一驅動因素。如果數據質量足夠高，一些意想不到的能力可以從參數較少或是在較小數據集上訓練的較小模型中誘導而出。此外，查詢的措辭方式也會影響模型響應的準確性。例如，當 Dyer 和他的同事使用多項選擇格式（multiple-choice format）來安排電影表情符號任務時，準確性並不是突然的跳躍式提高，而是隨着模型複雜性的增加而逐漸提高。去年，在該領域的頂級學術會議 NeurIPS 上發表的一篇論文中，谷歌大腦（Google Brain）的研究人員展示了一個具備 prompt 的模型可以自我解釋（一種被稱為思維鏈推理的能力）如何正確解答數學應用題，而沒有該 prompt 的同一模型卻不能解答該應用題。

在研究清楚模型規模的影響之前，你不會知道它可能會出現什麼能力以及它的缺陷是什麼。

谷歌大腦系統性研究科學家 Yi Tay 指出，最近的研究表明思維鏈 prompt 改變了擴展曲線，從而改變了模型湧現出現的節點。谷歌研究人員在他們的 NeurIPS 論文中表明，使用思維鏈 prompts 可以引發 BIG-bench 研究中未識別到的湧現行為。此類要求模型解釋其推理的 prompt 可能有助於研究人員開始調研湧現發生的原因。

布朗大學研究語言計算模型的計算機科學家 Ellie Pavlick 說，最近的這些發現至少表明了湧現出現原因的兩種可能性。第一個可能性是，正如與生物系統的比較所表明的那樣，更大的模型確實會自發地獲得新的能力。很可能是該模型學到了一些全新的和不同的東西，而這些東西在較小規模的模型上是沒有的，這就是我們都希望的情況，即當模型按比例放大時會發生一些根本性的變化。

Ellie Pavlick 還指出，另一種相對正常客觀的可能性是，看似湧現的事情可能反而是通過思維鏈式推理起作用的內部統計驅動過程的頂點。大型 LLM 可能只是在學習啟髮式方法，而這些啟髮式方法對於那些參數較少或數據質量較低的小模型來說卻是難以理解的。

不過 Pavlick 認為，由於我們不知道模型底層的工作機制是怎樣的，所以我們無法說出發生了哪些事情。

不可預測的能力和缺陷

但是大模型也存在缺陷，比如谷歌前段時間推出的人工智能聊天機器人 Bard，在回答與詹姆斯・韋布空間望遠鏡有關的問題時犯下事實性錯誤。

湧現導致了不可預測性，而不可預測性——似乎隨着模型的規模擴大而增加，研究人員難以掌控。

「我們很難提前知道這些模型將如何被使用或部署，」Ganguli 說。「要研究湧現現象，你必須考慮一個情況，在研究清楚模型規模的影響之前，你不會知道它可能會出現什麼能力以及它的缺陷是什麼。」

在去年 6 月發布的一篇 LLM 分析報告中，Anthropic 的研究人員研究了這些模型是否會表現出某些類型的種族或社會偏見，這與之前不是基於 LLM 的算法（用於預測哪些前罪犯可能會再次犯罪）所報告的那些不同。該研究的靈感來自一個與湧現直接相關的明顯悖論：隨着模型在擴大規模時性能提升，它們也可能增加不可預測現象的可能性，包括那些可能導致偏見或帶來害處的現象。

「某些有害行為會在某些模型中突然出現，」Ganguli 說。他指出最近一個對 LLM 的分析——也被稱為 BBQ 基準——表明社會偏見隨着大量參數的出現而出現。「更大的模型突然變得更有偏見，」他說，如果不能解決這一風險，可能會危及這些模型的使用。

但他還提出了一個相反的觀點：當研究人員簡單地告訴模型不要依賴刻板印象或社會偏見時——字面上來說，就是通過輸入這些指令時，模型在其預測和響應時的偏見較小。這表明一些湧現的特性也可用於減少偏見。在 2 月份發布的一篇論文中，Anthropic 團隊報告了一種新的道德自我修正模式，在這種模式下，用戶提示程序是有幫助的、誠實的和無害的。

Ganguli 說，湧現既揭示了大型語言模型驚人的潛力，也揭示了其不可預測的風險。這些 LLM 的應用已經激增，因而更好理解這種雙面性將有助於利用語言模型能力的多樣性。

Ganguli 說：「我們正在研究用戶實際上是如何使用這些系統的，不過他們也在不斷地修補改進這些系統。我們花了很多的時間，只是為了與我們的模型聊天，使其功能更好。而實際上也就是從那時起，我們開始信任這些模型。」

原文鏈接：https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

本文鏈接：https://www.8btc.com/article/6810960

轉載請註明文章出處