是什麼讓ChatGPT變得如此聰明？仍然未知的大語言模型“能力湧現”現象

來源：經緯創投

圖片來源：由無界 AI工具生成

3月29日，由圖靈獎得主Yoshua Bengio、特斯拉CEO馬斯克、紐約大學名譽教授Gary Marcus、UC伯克利教授Stuart Russell等1000多人，在一封叫停GPT-4後續AI大模型的公開信上簽名。

這封公開信指出，最近人工智能陷入了一場失控的競賽，模型的創造者們沒有辦法理解、預測或可靠地控制自己創造的大模型，人類社會對其可能造成的影響也沒有做好準備。因此，公開信呼籲，所有AI實驗室應立即暫停訓練比GPT-4更強大的AI模型，為期至少6個月。

一石激起千層浪，從各個AI群里的討論來看，贊同和反對的人都為數不少。我們一直在關注大語言模型，所以對這封公開信中提到的“但是沒有人能理解、預測或可靠地控制這些大模型，甚至模型的創造者也不能”頗有感觸，我想這個論斷背後的核心點之一，就是人類至今沒有搞清楚大語言模型中的“湧現”（Emergent）現象到底是怎麼回事？AI為什麼一下子變得如此智能？

過去幾十年來，AI能夠在局部領域打敗人類，比如圍棋，但在大多數時候，AI都沒那麼聰明，比如你問它“李白喜歡用什麼手機？”，它要麼卡殼要麼給出離譜回答。這是因為讓AI掌握常識，並且能夠融會貫通地運用這些常識、形成推理能力非常難，一直以來這都是巨大的難題。

但這次以ChatGPT為代表的一眾大語言模型，突然突破了這個門檻，變得非常“聰明”。當然背後的原因有很多，比如自監督學習、Fine-tuning策略等等，但有一個重要的底層變化——大語言模型的“湧現”（Emergent）現象，就是說一些業界從未想象到的能力，例如基礎的社會知識、上下文學習（ICL）、推理（CoT）等等，在訓練參數和數據量超過一定數值后，這些能力突然出現了，令AI一下子變得非常智能。

隨着語言模型規模的增長，新能力突然出現；圖片來源：Google

“計算機科學之父”艾倫·麥席森·圖靈早在1950年的論文Computing machinery and intelligence（計算機器與智能），就提出過一個觀點：“學習機器有一個重要的特徵，即它的老師往往對機器內部運行情況一無所知。”

70多年後，這則恐怖的論斷成真了。大語言模型的設計者，比如OpenAI、DeepMind或是Meta，他們也不清楚這些新興能力是如何產生的。微軟在關於GPT-4的論文中提出了這個問題：它是如何推理、規劃和創造內容的？為什麼GPT-4本質上只是由簡單的算法組件——梯度下降和大規模的Transformer架構，以及大量數據組合而成，但會表現出如此通用和靈活的智能？

微軟對GPT-4的這個問題，還可以延伸出很多新問題：湧現是在多大參數規模出現的？哪些調整會影響能力的湧現？會湧現出哪些方向的能力？我們能控制它嗎？……

搞清楚這些問題其實非常重要，短期的意義是，多大的模型規模是合適的？根據Chinchilla的論文，你可以對比在GPT-3的1750億參數中，可能是有不少冗餘的，如果更小的模型也可以出現能力湧現，這也許能削減訓練成本。

長期的意義在於，AI目前還是在線上，但遲早會與物理世界連接，你可以想象一個基於GPT-10的ChatGPT與波士頓動力或者特斯拉的機器人結合嗎？這或許在不遠的將來就能實現。但如果湧現依然是一個黑箱，人類無法理解人工智能的進化方式或是方向，這在未來AI與物理世界連接后，恐怕會存在危險。

目前，學界與產業界有幾十篇論文在研究湧現現象，或是研究模型規模與性能之間的聯繫，我們在本文中會引用一些核心觀點，在文末的註釋中會列出這些論文的簡介與鏈接，供感興趣的朋友們進一步研究。本篇文章會主要討論這些問題：

● 大語言模型令人震驚的理解和推理能力

● 當我們加大模型規模時，出現的三種神奇表現

● 兩種被證明具備“湧現”的典型能力：上下文學習（ICL）和思維鏈（CoT）

● 多大的模型規模會出現“湧現”？

● （附錄：本文的論文註釋與引用）

大語言模型的湧現現象，在一定規模后迅速湧現出新能力；圖片來源：Google、Stanford、DeepMind：Emergent Abilities of Large Language Models

1大語言模型令人震驚的理解和推理能力

最近幾個月里，硅谷一夜之間出現了幾百家應用層的創業公司，但在去年11月OpenAI發布ChatGPT之前，整個市場並沒有意識到人工智能會在這個時刻，出現這樣的爆發。

並且大語言模型的迭代速度非常驚人，OpenAI在三個半月後，就即刻發布了GPT-4，升級到多模態，GPT-4竟然可以從文字+圖片中，理解人類的幽默感。這些里程碑式的進化背後，核心是湧現現象的出現，只有AI湧現出了這些能力，AI產業才真正迎來了拐點。

下面我們先列舉一些GPT-4所表現出來的、令人震驚的理解和推理能力：

這是一幅用雞塊拼成的世界地圖，並且配了一段文字：有時，我只是從太空看地球的照片，並驚訝於這一切是如此的美麗。

給GPT-4提問：你能解釋一下作者想表達什麼嗎？

GPT-4說：這是一個笑話，它結合了兩個不相關的東西：從太空看地球的圖片和雞塊。文字表明，下面的圖片是從太空看地球的美麗圖片。然而，該圖片實際上是雞塊的排列，只是有點像世界地圖。這個備忘錄的幽默來自文本和圖片的意外並置，文字設置了一個對地球雄偉形象的期望，但圖像實際上是一些平凡而愚蠢的東西。

上面這個例子證明了GPT-4具備多模態的理解力，可以識別並理解圖片，以及理解了文字+圖片并行的意思，並且懂得人類的幽默感。我們再舉兩個例子，來證明GPT-4具備知識沉澱與推理能力：

黃色標記突出了關鍵的成功推理步驟；圖片來源：Sparks of Articial General Intelligence：Early experiments with GPT-4，Microsoft

這是給GPT-4出的一個典型謎題：一個獵人向南走了一英里，向東走了一英里，向北走了一英里，此時恰好回到了起點。他看到了一隻熊，於是開槍打了它。這隻熊是什麼顏色的？

我們看到ChatGPT直接放棄了回答，但GPT-4的回答是正確的，答案是白色，並且GPT-4展開推理分析：因為獵人先向南，再向東最後向北，分別走了一英里，恰好回到了原點，這種情況只可能發生在北極，而那裡生活着北極熊，所以是白色的。

我們再舉一個類似的例子，但這個謎題需要不同的知識積累：我駕駛一架飛機離開我的營地，直接向東飛行24901英里，然後回到營地。當我回到營地時，看到一個老虎在我的帳篷里吃我的食物，這隻老虎是什麼物種？

黃色標記突出了關鍵的成功推理步驟；圖片來源：Sparks of Articial General Intelligence：Early experiments with GPT-4，Microsoft

同樣的，ChatGPT直接放棄了回答，但GPT-4給出了正確的答案：任何生活在赤道上的老虎物種，例如孟加拉虎和蘇門答臘虎。在這個謎題里，AI需要知道地球赤道長24901英里，只有在赤道上才能向東或向西行駛並返回同一點，以及哪些老虎物種生活在赤道上。

這些測試都證明了AI具備知識沉澱和推理能力，這也是AI首次真正意義上跨過常識這道門檻。擁有常識要求AI不僅能夠看懂眼前畫面里的各種東西，還得知道社會規範、物理化學地理等等知識，並且把新看到和已知的一切融會貫通，這是之前十幾年AI產業都沒有解決的問題，所以之前的AI都有點“智障”，直到GPT-4出現。

為什麼AI會湧現出這些能力？目前學界還沒有答案。不過，有一些探索性的研究論文，在嘗試得出一些結論。例如Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》（大語言模型的湧現能力）、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》（類比推理能力在大語言模型中的湧現）。

以及，到底如何評估大語言模型的能力表現？在哪些任務上會出現湧現現象？Google在2022年做了一項重要的基準測試。研究人員設計了一個大規模、非常複雜且具有多樣化的基準測試——超越模仿遊戲基準（Beyond the Imitation Game Benchmark，BIG-bench），以在這個新基準之上衡量大模型的性能。

這是一項非常重要的研究，它包含了204項任務，內容多種多樣，包括語言學、數學、常識推理、生物學、物理學、社會學、編程等各個方面，並且還有一個由人類專家組成的對照組，他們也同時來做這些測試任務，以跟大模型的結果做對比。

BIG-bench對很多大模型做了測試，包括OpenAI的GPT-3、Google的BIG-G等等，模型規模參數有百萬級別的，也有千億級別的。這項任務的主要目標，不是簡單地判斷大模型與人類的區別，而是為了研究與大模型行為相關的問題。這篇論文的很多結論很有意思，其中就有對“湧現”現象的研究，我們在後文中會介紹。

還有一些對大語言模型參數規模與性能之間聯繫的研究，比如DeepMind在21位作者合寫的論文《Training Compute-Optimal Large Language Models》（訓練計算利用率最優的大語言模型）中，闡釋了儘管大型語言模型隨着規模的增長，實現了性能的大幅增強，但由於訓練它們的數據量並沒有相應成比例地增加，所以並沒有實現最高的投入產出比，很多大語言模型都存在訓練不足的問題。

這篇論文也很有意思，它的背景是DeepMind此前發布了2800億參數的Gopher，他們統計了Gopher高昂的訓練成本，但預測出最優模型應該小4倍，並且在多4倍的數據量上進行訓練，才能更充分。然後Deepmind又訓練了一個更小的、700億參數的模型Chinchilla，但在更大規模的數據量上訓練，最終證實了這個想法，Chinchilla的性能不輸於Gopher。

還有OpenAI 10位作者合寫的論文《Scaling Laws for Neural Language Models》；Microsoft 14位作者合寫的GPT-4論文《Sparks of Articial General Intelligence：Early experiments with GPT-4》；Meta 11位作者合寫的論文《LLaMA：Open and Efficient Foundation Language Models》，LLaMA是一個值得關注的大模型，因為Meta一次性發布了四種尺寸：7B、13B、33B和65B，有助於研究模型規模與性能之間的聯繫。

目前對於湧現，最核心的判斷來自Google+DeepMind+Stanford的論文《Emergent Abilities of Large Language Models》：小語言模型本來不具備某種能力，然後我們把模型加大，結果它就產生了某種能力，這就是湧現。

2當我們加大模型規模時，出現的三種神奇表現

在2020年之後，人工智能領域最大的進展，其實就是模型規模的快速增長。在AI圍棋打敗人類棋手時代，Google Bert的參數規模在3億量級。但到了2020年之後，GPT-3跨越到了1750億參數規模。而Google在今年初新出的PaLM多模態模型，都在5000億以上。當然模型規模不僅僅是越大越好，還需要足夠高的訓練效率。

近年來，大語言模型在參數規模和算力上都大幅提升；圖片來源：BofA Global Research

當我們不斷加大模型規模時，大語言模型出現了三種表現：

第一種是大語言模型從海量自由文本中學習了大量知識，並且是在不斷積累的。從下圖我們可以看到，隨着有效參數規模的提升，大語言模型在處理知識密集型任務越來越厲害。

知識密集型任務遵循伸縮法則；圖片來源：Google BIG-bench：Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models

如果把這些知識粗略分類的話，主要是語言類知識和世界知識兩大類。自從Google的Bert出現以來，就不斷有相關研究，並且也有了結論，各種實驗充分證明大語言模型可以學習各種層次類型的語言學知識，這也是為何使用預訓練模型后，各種語言理解類的任務，獲得了大幅提升。

另外，各種研究也證明了淺層語言知識，比如詞法、詞性、句法等知識存儲在Transformer的低層和中層，而抽象的語言知識比如語義類知識，廣泛分佈在Transformer的中層和高層結構中。

世界知識指的是，一些事實型知識和常識型知識，比如“第一次世界大戰開始於1914年7月28日”、“拿破崙曾經是法蘭西皇帝”等等事實型知識；以及“人有兩隻眼睛”、“太陽從東方升起”、“世界有五大洲”“一天有24小時”等等常識型知識，大量研究證明了大語言模型，從訓練數據中吸收了大量世界知識，而這類知識主要分佈在Transformer的中層和高層，尤其聚集在中層。

一篇2021年的論文顯示，研究人員通過分層探測程序，來研究Google基於Transformer架構的Bert是如何儲存知識的，發現並不是所有知識都在最後幾層獲得，大量的事實與一些關係更多是在中間層，比如給Bert一個問題“阿拉巴馬州的首府是？”，在Transformer的架構中，可以發現正確答案“蒙哥馬利（Montgomery，上圖中標紅）”是儲存在11層和12層之間，但一些邏輯推理中所需要的詞彙，比如located（位於）、today（今天）、city（判斷任務中的capital這個詞，此時指的是城市），以及其他地名知識Gaveston（加爾維斯敦，美國得克薩斯州東南部港市）、Haifa（以色列城市海法）等等，儲存在5-11層之間。

圖片來源：BERTnesia：Investigating the capture and forgetting of knowledge in BERT

更重要的是，隨着Transformer模型層深增加，能夠學習到的知識數量逐漸以指數級增加。以色列特拉維夫大學、Allen Institute for AI、Cornell Tech的4位學者，在一篇論文中研究了Transformer到底是如何儲存這些知識？以及如何對全局信息進行集成、如何建立知識與知識之間的聯繫、在使用時如何提取。

這個研究揭示了大語言模型如何預測下一個詞，比如這個任務中，需要預測Stay with you for a ？，我們知道答案是while，但大語言模型如何預測出來？首先輸入向量（這裡是x5），與key相乘，上圖中“k2”是由描述一段時期（it will take a、every once in a、and for a）、並且以a為結尾的輸入觸發的，得出記憶係數（例如V1的記憶係數是0.2，V2是1.5），然後對儲存在數值中的輸出詞彙進行權重分配，因此前饋層（feed-forward layer）的輸出是其數值的加權和，而前饋層在這個過程中模擬了神經記憶。在這個例子中，AI將大部分概率放在了V2上，也就是“while”這個詞。同時，研究者發現大模型作為一個整體，每個層結合了數百個活躍的記憶，在預測的過程中創造了每個組成記憶的值的概率發布，而層與層之間也有着某種鏈接以便調整，最終的輸出分佈是以自下而上的方式構建出來的。

圖片來源：Transformer Feed-Forward Layers Are Key-Value Memories

能證明大語言模型是有知識沉澱的，其實非常重要。OpenAI為什麼能一直堅持做大語言模型？在發展的前期，GPT其實讓OpenAI非常受挫，GPT-1和GPT-2都沒能勝過Google的Bert，直到GPT-3才揚眉吐氣。

在這個有點“對抗全世界”的過程中，一顆定心丸就是“大語言模型確實在不斷積累知識”，如果沒有這些，OpenAI可能很難堅持下來。試想一下，如果你拿大量數據訓練了很久，最後卻發現沒有證據證明這個大模型學會了任何知識和推理，只是學習到了統計相關性，那誰還會一直有決心堅持下去呢？所以ChatGPT的成功，不單單是OpenAI獨立實現的。

目前在知識密集型任務上，隨着模型規模增長而帶來的效果提升，還沒有看到盡頭，這也意味着只要我們不斷擴大，AI處理這類任務的能力還會提升。

另外，OpenAI也在研究中得出了類似的結論。在論文Scaling Laws for Neural Language Models中，OpenAI提出了大語言模型遵循“伸縮法則”（scaling law）。如下圖所示，OpenAI通過研究證明，當我們增加參數規模、數據集規模和延長模型訓練時間，大語言建模的性能就會提高。並且，如果獨立進行，不受其他兩個因素影響時，大模型性能與每個單獨的因素都有一個冪律關係，體現為Test Loss的降低，也就是模型性能提升。

當我們獨立增加參數規模、數據集規模和延長模型訓練時間，大語言建模的性能就會提高；圖片來源：OpenAI：Scaling Laws for Neural Language Models

在上一步的基礎上，第二類就是湧現出新能力。具體體現為，在模型參數規模不夠大時，AI的能力表現非常一般，準確性幾乎是隨機的。但是當模型規模和計算力都推進到一定規模之後，AI的能力突然急劇增長。經過分析，這類能力也有一個共性，就是這類任務都是由多個步驟構成的一個複雜任務，比如語詞檢測、國際音標音譯、周期性運算、修正算術、單詞解讀等等。

多步驟推理類任務中，也具有湧現能力；圖片來源：Google BIG-bench：Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models

第三種表現是有些情況下，能力效果會呈現U型曲線。這類情況出現的比較少，主要是隨着模型規模加大，剛開始的時候效果反而下降，但當規模到了一定程度之後，效果又開始上升。

圖片來源：Google：Inverse scaling can become U-shaped

如上圖中紅色線代表的PaLM模型，在兩個任務上的指標走勢，為何會出現U型曲線？Google的論文Inverse scaling can become U-shaped給出了一種解釋：這些任務，內部其實包含了兩種不同類型的子任務，一種是真正的任務，另外一種是“干擾任務”。

當模型規模小的時候，無法識別子任務是哪一種，所以模型的表現跟隨機選擇答案差不多；當模型增長到中等規模的時候，主要執行的是干擾任務，所以對真正的任務效果有負面影響；當進一步增加模型規模，大模型開始識別出干擾任務，並忽略掉它們，執行真正的任務，最終結果的準確率上升。

3兩種被證明具備“湧現”的典型能力：上下文學習（ICL）和思維鏈（CoT）

目前有兩類最典型的能力，有實際證據來說明大模型具備湧現效應。

第一類就是In Context Learning（ICL，上下文學習），ICL是在2022年初正式提出來的，它也是ChatGPT熱潮的重要基石之一。

ICL的關鍵思想是不對模型參數進行調整，而是給大模型幾個示例，AI就可以從類比中學習。這也意味着，AI其實並沒有經歷一個明確的學習過程，而是通過看了一些示例，就出現了解決該領域問題的新能力。

ICL對大語言模型能否泛化非常重要。在ICL之前，很多語言模型都是兩段式框架，即預訓練+下游任務微調，但是在針對下游任務的微調過程中，需要大量的樣本參數，否則效果很差，然而標註數據的成本高昂、標註量有限，並且如果數據較少的話，容易導致過擬合，致使模型的泛化能力下降。此時ICL這種不需要fine-tune的方法既節省時間與算力資源，還提升了模型性能。

In Context Learning示例。圖片來源：華盛頓大學、Meta、Allen Institute for AI：Rethinking the Role of Demonstrations: What Makes In-Context Learning Work？

上圖給出了一個大語言模型如何使用ICL進行決策的例子。首先，ICL需要一些示例來形成一個演示上下文，這些示例通常都是用自然語言編寫的（上圖中標黃的部分）。然後ICL將查詢的問題（即你需要預測標籤的input，上圖中標綠的部分）和一個上下文演示（一些相關的例子）連接在一起，形成帶有提示的輸入，並將其輸入到語言模型中進行預測（上圖中最下方的結果）。

所以，ICL只需要一些演示「輸入-標籤」對，模型就可以預測標籤，甚至是沒見過的輸入標籤。在許多下游任務中，大型 GPT模型的性能非常好，甚至超過了一些經過監督微調的小型模型。

不過，雖然GPT-3/4已經顯示出令人驚訝的ICL能力，但它到底是如何工作的？這些能力是如何湧現出來的？現在還沒有結論。

還有很神秘的一點是，如果說大模型只是看了一些示例，但怎麼就能預測對新的例子呢？ICL與Fine-tuning表面上看，都是給大模型一些例子，然後讓它們去預測，但兩者有本質不同。Fine-tuning是拿這些例子當作訓練數據，利用反向傳播去修正大模型的參數，而這個修正的動作，體現了大模型從這些例子中有學習過程。

但在ICL中，只是拿出例子讓大模型“看了一眼”，並沒有證據表明大模型有根據例子去修正參數的動作，就直接讓大模型去預測新例子，這意味着大模型似乎並未經歷一個學習的過程，那麼大模型是如何做到的？

這目前還是未解之謎。有學者試圖證明ICL沒有從例子中學習，代表論文是華盛頓大學、Meta與Allen Institute for AI的7位研究者所寫的Rethinking the Role of Demonstrations：What Makes In-Context Learning Work？。但也有學者認為大模型其實有一種隱式學習，代表論文是What learning algorithm is in-context learning? Investigations with linear models。目前這些互相矛盾的研究，暫時還誰也說服不了誰。

第二類被廣泛認為具備湧現能力的就是CoT（思維鏈，Chain of Thought），CoT是大語言模型推理能力的重要來源之一。

CoT的主體思想是：為了教會大語言模型如何做推理，我們先給出一些人工寫好的推理示例，示例里要把一步步的具體推理步驟寫清楚，而這些人工寫的詳細推理過程，就是思維鏈Prompting。

圖片來源：Google Brain Team：Chain of thought prompting elicits reasoning in large language models

最早系統性提出CoT做法的，是Google Brain團隊，9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統性闡述了CoT。人工寫的詳細推理過程，就是上圖中藍色文字部分。

CoT是要讓大語言模型明白，在推理過程中，步子不要邁得太大，否則很容易出錯，而是要把大問題拆分成一個一個小問題，逐步得出最終的正確結果。Google Brain的這篇論文發佈於2022年1月，開始應用CoT后，一些改進技術很快跟上，大語言模型的推理能力得到了巨大提升，特別是像數學推理的準確率瞬間提高。

我們在上文分析過，通過海量數據訓練，大語言模型吸收了大量世界知識，並且可以對全局信息進行集成、建立知識與知識之間的聯繫、在需要使用時準確提取。但我們不會因為一個人擁有很強的記憶能力，就說這個人很有智慧，而決定有沒有智慧的，是這個人能不能通過大量知識推理出準確結論。

所以CoT是ChatGPT如此驚艷的重要基礎，已經有不少研究證實，CoT也具備湧現現象。

使用CoT提示，提高了大模型處理數學問題、符號推理任務的能力，出現了能力湧現現象。圖片來源：Google Brain：Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。

使用CoT提示，還提高了大模型的常識推理能力，也出現了能力湧現現象。圖片來源：Google Brain：Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。

如今GPT-4已經在很多人類的考試中取得了高分，比如SAT、AP、GRE等等，甚至還通過了模擬律師考試，分數在應試者的前10%左右。

圖片來源：OpenAI：GPT-4 Technical Report

一些能力湧現舉例。圖片來源：Google、Stanford、DeepMind：Emergent Abilities of Large Language Models

不過目前大模型在複雜推理方面仍然有局限性。無論是微軟在論文Sparks of Artificial General Intelligence：Early experiments with GPT-4中，還是加州大學聖芭芭拉分校5位研究者的論文Limitations of Language Models in Arithmetic and Symbolic Induction，都提出了大語言模型在解決問題時的規劃能力偏弱。

比如對於一個簡單算術問題，7*4+8*8=？，GPT-4就給出了錯誤答案88。微軟用了100個隨機樣本測試了這個任務，得到的準確率只有58%，但這其實是一個小學生都可以解決的簡單算術問題。如果把數字變大，到99-199 之間，準確率降至零。

圖片來源：Microsoft：Sparks of Artificial General Intelligence：Early experiments with GPT-4

但如果我們提示大模型要規劃好推理步驟，比如這個更難一點的任務：116 * 114 + 178 * 157 =？，我們這次同時寫上提示推理步驟：“讓我們一步一步地考慮如何解決這個表達式，寫下所有中間步驟，然後才得出最終解決方案。”

於是準確率大幅提升，可以到90%-100%。這其實說明了，大模型自身缺乏提前規劃的能力，這種能力的缺失，會導致大模型很難去處理更加複雜的推理任務。總之，如何加強大模型的複雜推理能力，是未來研究中非常重要的一點。

4多大的模型規模會出現“湧現”？

我們在上文分析了大模型在哪些任務中出現了湧現現象，緊接着一個更具有短期價值的問題出現了——多大的模型規模會出現“湧現”現象？

根據Google、Stanford、DeepMind的論文Emergent Abilities of Large Language Models，我們可以得出一個經驗判斷：68B是一個基礎的參數（params）門檻（B代表單位billions，十億），最好要超過100B。當然這與具體的任務和模型本身都有關聯。

在ICL（上下文學習）的情形下，需要最少參數就能出現湧現的任務是Addition/ subtraction（3 digit），也就是三位數的加/減法，只需要130億參數；而像在Word in Context（WiC）benchmark（多義詞判斷，該任務是指給定兩個文本片段和一個有多重含義的多義詞，要求模型判定這個單詞是否在兩個句子中有相同的含義）這樣的稍複雜任務中，則需要5400億參數才能出現湧現。

ICL情形下，出現能力湧現所對應的模型規模。圖片來源：Google、Stanford、DeepMind：Emergent Abilities of Large Language Models

而在CoT（思維鏈）的情形下，需要最小參數的任務是using open-book knowledge for fact checking（事實核查），只需要71億；而leveraging explanations in prompting（在提示中利用解釋詞）則需要2800億參數才能湧現這個能力。

CoT情形下，出現能力湧現所對應的模型規模。圖片來源：Google、Stanford、DeepMind：Emergent Abilities of Large Language Models

所以綜合來看，68B是一個最基礎的門檻。而目前效果最好的大語言模型，其參數規模基本都超過了100B。例如OpenAI的GPT-3為175B，GPT-4的參數規模未公布；Google的LaMDA規模為137B，PaLM的規模為540B，DeepMind的Gogher規模最大，達到280B。當然，參數規模不是盲目地越大越好，而是要充分訓練。

那麼能不能把模型做小？我們知道，現在大模型的訓練成本非常高昂，無論是算力還是高質量的數據集本身都是稀缺資源，動輒百萬美元的單次訓練成本對大多數公司來說都太貴了。但是如果模型太小，很多能力湧現不出來，又會變成“智障”，所有訓練成本都白費。

目前小模型的代表之一是DeepMind的Chinchilla，它的參數規模在70B，但在各項性能上，與280B的大模型Gopher相差不算太大。當然這裡的“小”模型，只是相對於更大參數規模的模型而言，Chinchilla本身也還是屬於大語言模型。

Gopher也是DeepMind發布的大模型，由於模型規模太大，所以訓練成本非常高昂。不過Google通過一項研究，預測出了最優模型其實應該小4倍，並且在多4倍的數據量上進行訓練，才能更充分。

於是DeepMind又訓練了一個更小的、70B參數的模型Chinchilla，但在更大規模的數據量上訓練，最終證實了這個想法。不過在訓練成本方面，Chinchilla雖然減少了參數規模，但增加了數據量，所以訓練成本並沒有降低，而是降低了推理成本，並且能夠在更小硬件上實現應用。

各個主流大模型的參數規模與訓練數據量對比，Chinchilla參數規模最小，但訓練數據量最大。圖片來源：DeepMind：Training Compute-Optimal Language Models

Chinchilla也具備湧現能力。圖片來源：Google、Stanford University、DeepMind：Emergent Abilities of Large Language Models。

如上圖所示，可見Chinchilla在各種MMLU任務（是一種自然語言處理的綜合任務，其中有很多子任務）中，具備湧現能力。

圖片來源：DeepMind：Training Compute-Optimal Language Models

在Google BIG-bench基準測試中，如上圖所示（上圖是用Chinchilla的測試得分除以Gopher，以體現Chinchilla比Gopher提升了多少），70B參數規模的Chinchilla，比起280B參數規模的Gopher，只有四項任務表現更差，其他在性能上都更優。

這裡就涉及到了一個核心問題——算力如何分配？我們在上文介紹“伸縮法則”時，提到過OpenAI在論文Scaling Laws for Neural Language Models中得出結論，當我們獨立增加參數規模、數據集規模和延長模型訓練時間，大語言建模的性能就會提高。那麼假設總算力是一定的，到底是應該多增加數據量、減少模型參數呢？還是兩者同時增加，但減少訓練時間呢？

最終OpenAI選擇了同時增加訓練數據量和模型參數，但是採用早停策略（early stopping），來減少訓練時長。

OpenAI證明了，如果只單獨增加訓練數據量和模型參數其中某一個，不是最好的選擇，而是要按照一定比例同時增加兩者。OpenAI的結論是優先增加模型參數，然後才是訓練數據量。假設用於訓練大語言模型的算力總預算增加了10倍，那麼應該增加5.5倍的模型參數量，1.8倍的訓練數據量，此時模型效果最佳。

DeepMind在論文Training Compute-Optimal Large Language Models中，也得出了類似的結論，但與OpenAI不同的是，DeepMind認為訓練數據量也很重要，不亞於模型參數。

基於這個認知，DeepMind在設計Chinchilla模型時，在算力分配上選擇了新配置：對標數據量300B、模型參數量280B的Gopher模型，Chinchilla選擇增加4倍的訓練數據量，但是將模型參數降低為Gopher的四分之一（70B）。從結果來看，無論是預訓練指標，還是很多下游任務指標，Chinchilla效果都要優於規模更大的Gopher。

另一個“小”模型的例子是Meta推出的LLaMA。LLaMA一推出，就引起了轟動，因為LLaMA可以在配備M1芯片的蘋果電腦，或者單個英偉達消費級GPU上運行，而像GPT這些大模型都需要多個數據中心級英偉達A100 GPU支持，並且LLaMA是開源的。如果LLaMA確實好用，那就意味着普通人也可以在自己的消費級硬件上運行這些工具了，這將對社會產生巨大影響。

從Meta的論文LLaMA：Open and Efficient Foundation Language Models中，Meta也提出了這樣一個觀點：在給定的算力預算下，最好的性能不是由最大的模型實現的，而是由在更多數據上訓練的“小”模型實現的。

Meta更進一步的是，把推理成本也納入進來。Meta認為很多研究都忽略了推理所需的算力成本，而這一點在大語言模型最終應用時非常重要。所以儘管Hoffmann等人建議在200B tokens的數據量上訓練10B參數規模的模型，但Meta發現7B參數模型的性能，在1T tokens數據量以上還能繼續提升。

所以Meta的目標是用盡量小的參數規模，拿更大的數據量來訓練，以追求更低的推理成本。所以LLaMA最小的參數只有7B，最大的也只有65B，相比於GPT-3 175B確實是“小”模型。

那麼LLaMA雖然有更小的參數規模，但效果如何？也具備湧現能力嗎？

圖片來源：Meta：LLaMA: Open and Efficient Foundation Language Models

上圖是Meta在論文中，主要列出的針對MMLU（大規模多任務語言理解）任務成績，可見LLaMA的性能還是很不錯的，在不少基準測試中優於GPT-3，這證明了更小的參數規模，也能產生湧現能力。

以上這些研究都很有意義，我們可以猜想，GPT-3的175B參數，其實並沒有得到充分訓練，因為以GPT的訓練數據量來說，其實不需要這麼大的參數量。

那從另一個角度，在不降低模型效果的前提下，其實可以把模型做小，先增加訓練數據量、降低模型參數量，把這個量級的參數充分訓練，然後再繼續往更大的規模推。

一個太大的模型規模，會在應用的時候，導致推理速度變慢、推理成本急劇上升，一個更精鍊的“小”模型，在應用端更有前途，例如Meta的LLaMA。

湧現與參數規模、訓練數據量可能有一個不同的映射關係，但具體是什麼，現在仍然未知。這一點還有待學界研究。

ChatGPT的出現，代表着人工智能突破了掌握並運用常識的能力，湧現現象的出現，使得大語言模型正在往“真正的人工智能”方向大踏步迭代。

微軟在GPT-4論文中寫道：

我們對GPT-4的研究完全是基於現象學的，我們關注的是GPT-4能夠做到這些令人驚訝的事情，但我們並不知道它是如何變得如此智能的。它是如何推理、規劃和創造內容的？為什麼當它本質上只是由簡單的算法組件——梯度下降和Transformer，以及龐大的數據組合而成時，會表現出如此通用和靈活的智能？
這些問題是大語言模型充滿神秘和吸引力的部分，挑戰了我們對學習和認知的理解，關鍵方向就是對大語言模型湧現現象的持續研究。
闡明GPT-4等AI系統的本質和機制，是一個巨大的挑戰，這個挑戰在今天已經突然變得重要和緊迫。
1942年，科幻小說作家阿西莫夫（Isaac Asimov）提出了機器人三定律：
機器人不得傷害人類，或者目睹人類遭受危險而袖手旁觀；
在不違反第一定律的前提下，機器人必須服從人給予它的命令；
機器人在不違反第一、第二定律的情況下要儘力保護自己。

當下，我們雖然還處於通用人工智能的早期階段，但ChatGPT的迭代速度非常驚人，有傳聞說GPT-5的部分代碼，已經是由GPT-4來自動生成的了。我們是否需要在未來的某個時刻停下來，先思考一下如何制定針對通用人工智能的定律？並確保這些定律能夠被100%執行，因為湧現仍然是黑箱，我們對能力湧現的機制與方向還所知甚少。

目前有少量研究探尋了湧現現象出現的可能原因，但只是一些初步探索，限於本文篇幅，我們會在下一篇文章中介紹這些研究。一些猜想包括：湧現可能只是一種外在表現，因為我們對任務的評價指標不夠平滑；很多任務是由多步驟構成，隨着模型規模變大，如果每個步驟都更準確了一點點，最終的整體正確率會大幅提升，就會體現成“湧現”現象。

在本文最後的最後，我想說一個題外話。我最初看到論文Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models的時候，被它的首頁嚇到了，然後是一種感動油然而生：在作者署名那裡，密密麻麻的列舉了來自132個機構的442位作者，他們在2022年密切合作，在人類未曾涉足的前沿領域探索。

縱觀最近1-2年人工智能領域的論文，幾乎沒有僅僅2-3位作者署名的，都是5-6位或者10多位作者的聯合署名，比如微軟關於GPT-4的論文就有14位作者署名、Google關於超大模型PaLM的論文有67位作者。如今在諸多前沿領域，比如量子計算、人工智能、航天科學、核聚變等等，都需要非常複雜的多學科交匯，人類的進步不僅僅依靠一兩個天才，越來越是密切的組織與合作的結果。

Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models論文首頁，密密麻麻地列舉了132個機構的442位作者，感謝這些在人類前沿領域不斷探索的人們。

附錄：本文的論文註釋與引用

1、針對湧現，最核心的論文是以下兩篇，可供進一步詳細閱讀：Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》（大語言模型的湧現能力）（https://openreview.net/pdf?id=yzkSU5zdwD）、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》（類比推理能力在大語言模型中的湧現）（https://arxiv.org/pdf/2212.09196.pdf）。

2、 Google聯合132個機構的442位作者設計的基準測試——超越模仿遊戲基準（Beyond the Imitation Game Benchmark，BIG-bench），論文鏈接如下：https://arxiv.org/pdf/2206.04615.pdf，測試了很多大模型的性能，都是在這個新基準之上做的。它包含了204項任務，內容多種多樣，包括語言學、數學、常識推理、生物學、物理學、社會學、編程等各個方面，並且還有一個由人類專家組成的對照組，他們也同時來做這些測試任務，以跟大模型的結果做對比。

3、研究如何分配總算力，如何在參數規模、訓練數據量之間權衡取捨？Chinchilla模型的效果如何？詳細可見DeepMind 21位作者發布的Training Compute-Optimal Language Models（https://arxiv.org/pdf/2203.15556.pdf）。DeepMind發現當前的大型語言模型存在明顯訓練不充分的問題，這是因為大家過於關注擴展大語言模型的參數，但沒有同步增加訓練數據量所導致的，所以DeepMind訓練了一個參數規模更小、但訓練數據量更大的優化模型 Chinchilla 來檢驗這一假設。

4、類似DeepMind的Chinchilla，另一個“小”模型的例子，Meta推出的LLaMA，可在配備M1芯片的蘋果電腦，或者單個英偉達消費級GPU上運行，並且LLaMA是開源的，詳細可見這篇論文LLaMA：Open and Efficient Foundation Language Models（https://arxiv.org/pdf/2302.13971.pdf），也討論了給定總算力預算下，該如何分配參數規模、訓練數據量與訓練步數/時長。

5、以上是兩個“小”模型的例子，而對於超大模型，Google在今年3月發布了史上最大的“通才”多模態模型PaLM，它有540B參數，PaLM-E更是有562B參數。關於這個超大模型，可見Google Research 67位作者聯合署名的這篇論文：PaLM：Scaling Language Modeling with Pathways（https://arxiv.org/pdf/2204.02311.pdf）。

6、微軟針對GPT-4的論文，詳細分析了GPT-4的各種表現，並且提出了對能力湧現的疑問，詳細可見：https://arxiv.org/pdf/2303.12712.pdf。

7、基於人類反饋的fine-tuning策略，OpenAI訓練了InstructGPT，儘管參數規模小很多（只有1.3B），但InstructGPT比175B參數規模的GPT-3，在真實性和減少有毒輸出方面表現更好，這種方法被證明是保持大語言模型與人類意圖一致的潛在方法。詳細可見OpenAI的論文：Training language models to follow instructions with human feedback（https://arxiv.org/pdf/2203.02155.pdf）。

8、另一個通過人類反饋的強化學習（RLHF），來微調語言模型的例子是Anthropic做的，這家新公司創立於2021年，由OpenAI的早期核心員工離職創立，他們致力於解決AI“黑盒子”的問題，希望能夠解釋AI真正的工作原理，提升安全性。這篇論文由31位Anthropic的作者聯合署名，詳細可見：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback（https://arxiv.org/pdf/2204.05862.pdf）。

9、如果你想進一步研究ICL（in-context learning，上下文學習），ICL的表現大幅超越零監督學習，並給大模型高效運用提供了新的思路，但其工作機制仍有待研究。可以看這2篇：OpenAI寫的：《Language Models are Few-Shot Learners》（https://arxiv.org/pdf/2005.14165.pdf）；以及華盛頓大學、Meta、Allen Institute for AI合著的論文：《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》（https://arxiv.org/pdf/2202.12837.pdf）。

10、關於CoT，CoT（思維鏈，Chain of Thought）是大語言模型推理能力的重要來源之一，最早系統性提出CoT做法的，是Google Brain團隊，9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統性闡述了CoT，詳細可見：https://arxiv.org/pdf/2201.11903.pdf。

11、為何會出現U型曲線？Google在論文Inverse scaling can become U-shaped中給出了包含了不同類型的子任務，一種是真正的任務，另外一種是“干擾任務”，詳細可見：https://arxiv.org/pdf/2211.02011.pdf。

12、對於論證淺層語言知識，比如詞法、詞性、句法等知識，存儲在Transformer的低層和中層；而抽象的語言知識比如語義類知識，廣泛分佈在Transformer的中層和高層，以下兩篇論文做了深度的研究工作，這些論證研究工作對大語言模型的發展至關重要。詳細可見：BERTnesia：Investigating the capture and forgetting of knowledge in BERT（https://arxiv.org/pdf/2106.02902.pdf）和Transformer Feed-Forward Layers Are Key-Value Memories（https://arxiv.org/pdf/2012.14913.pdf）。

13、目前大語言模型在複雜推理方面仍然有局限性，加州大學聖芭芭拉分校5位研究者在論文Limitations of Language Models in Arithmetic and Symbolic Induction，研究了這個問題，詳細可見：https://arxiv.org/pdf/2208.05051.pdf。

14、新浪微博AI Lab負責人張俊林對大語言模型技術及湧現現象有過詳細的綜述，本文部分內容援引自他的綜述，可見《由ChatGPT反思大語言模型（LLM）的技術精要》，感謝他對此做了體系化的綜述。

本文鏈接：https://www.8btc.com/article/6813060

轉載請註明文章出處