深度！阿里大牛詳細解碼大模型與AIGC

圖片來源：由無界版圖AI工具生成

來源：阿里開發者

丁小虎（腦斧）

原標題《人類生產力的解放？揭曉從大模型到AIGC的新魔法》

一、前言

行業大佬都在投身大模型賽道，大模型有什麼魅力？ChatGPT火熱，是人類生產力的解放？

二、大模型

2.1 不是模型參數大就叫大模型

關於大模型，有學者稱之為“大規模預訓練模型”(large pretrained language model），也有學者進一步提出”基礎模型”(Foundation Models)的概念

2021年8月，李飛飛、Percy Liang等百來位學者聯名發布了文章：On the Opportunities and Risks of Foundation Models[1]，提出“基礎模型”(Foundation Models)的概念：基於自監督學習的模型在學習過程中會體現出來各個不同方面的能力，這些能力為下游的應用提供了動力和理論基礎，稱這些大模型為“基礎模型”。

“小模型”：針對特定應用場景需求進行訓練，能完成特定任務，但是換到另外一個應用場景中可能並不適用，需要重新訓練（我們現在用的大多數模型都是這樣）。這些模型訓練基本是“手工作坊式”，並且模型訓練需要大規模的標註數據，如果某些應用場景的數據量少，訓練出的模型精度就會不理想。

“大模型”：在大規模無標註數據上進行訓練，學習出一種特徵和規則。基於大模型進行應用開發時，將大模型進行微調（在下游小規模有標註數據進行二次訓練）或者不進行微調，就可以完成多個應用場景的任務，實現通用的智能能力。

2.2 大模型賽道早已開始

多語言預訓練大模型

Facebook已發布了一個百種語言互譯的模型M2M-100，該模型不依賴英文作為中介語言，可實現一百種語言之間的直接翻譯，在機器翻譯領域實現新突破。
谷歌宣布開源了多語言模型MT5，基於101種語言進行訓練，採用750GB文本，最大含有130億個參數，目前已在大多數多語言自然語言處理任務基準測試中達到最優水平，包括機器翻譯、閱讀理解等。

多模態預訓練大模型

OpenAI已研發DALL·E、CLIP等多模態模型，參數達120億，在圖像生成等任務上取得優秀表現。

多任務預訓練大模型

谷歌在2022年的IO大會上公開了MUM(多任務統一模型 : Multitask Unified Model)的發展情況。據谷歌透露，MUM模型基於大量的網頁數據進行預訓練，擅長理解和解答覆雜的決策問題，能夠理解75種語言，從跨語言多模態網頁數據中尋找信息。

視覺預訓練大模型

具備視覺通用能力的大模型，如ViTransformer等。視覺任務在日常生活和產業發展中佔據很大的比重，視覺大模型有可能在自動駕駛等依賴視覺處理的領域加速應用。

2.3 深度學習範式即將改變

AI的研發和應用範式可能會發生極大的變化，各位大佬或許也是因為看到了深度學習2.0時代的到來，紛紛投身大模型賽道。

上圖源自李飛飛、Percy Liang等百來位學者聯名發布的文章[1]

machine learning homogenizes learning algorithms (e.g., logistic regression), deep learning homogenizes model architectures (e.g., Convolutional Neural Networks), and foundation models homogenizes the model itself (e.g., GPT-3)

如文中所說，機器學習同質化學習算法（例如邏輯回歸）、深度學習同質化模型結構（例如CNN），基礎模型則同質化模型本身（例如GPT-3）。

人工智能的發展已經從“大煉模型”逐步邁向了“煉大模型”的階段。ChatGPT只是一個起點，其背後的Foundation Module的長期價值更值得被期待。

2.4 大模型不是一躍而起的

大模型發展的前期被稱為預訓練模型，預訓練技術的主要思想是遷移學習。當目標場景的數據不足時，首先在數據量龐大的公開數據集上訓練模型，然後將其遷移到目標場景中，通過目標場景中的小數據集進行微調，使模型達到需要的性能。在這一過程中，這種在公開數據集訓練過的深層網絡模型，被稱為“預訓練模型”。使用預訓練模型很大程度上降低下游任務模型對標註數據數量的要求，從而可以很好地處理一些難以獲得大量標註數據的新場景。

2018年出現的大規模自監督（self-supervised）神經網絡是真正具有革命性的。這類模型的精髓是從自然語言句子中創造出一些預測任務來，比如預測下一個詞或者預測被掩碼（遮擋）詞或短語。這時，大量高質量文本語料就意味着自動獲得了海量的標註數據。讓模型從自己的預測錯誤中學習10億+次之後，它就慢慢積累很多語言和世界知識，這讓模型在問答或者文本分類等更有意義的任務中也取得好的效果。沒錯，說的就是BERT 和GPT-3之類的大規模預訓練語言模型，也就是我們說的大模型。

2.5 為什麼大模型有革命性意義？

突破現有模型結構的精度局限

2020年1月，OpenAI發表論文[3]，探討模型效果和模型規模之間的關係。

結論是：模型的表現與模型的規模之間服從Power Law，即隨着模型規模指數級上升，模型性能實現線性增長

2022年8月，Google發表論文[4]，重新探討了模型效果與模型規模之間的關係。

結論是：當模型規模達到某個閾值時，模型對某些問題的處理性能呈現快速增長。作者將這種現象稱為Emergent Abilities，即湧現能力。

預訓練大模型+細分場景微調更適合長尾落地

用著名NLP學者斯坦福大學的Chris Manning教授[2]的話來說，在未標註的海量語料上訓練大模型可以：

Produce one large pretrained model that can be very easily adapted, via fine-tuning or prompting, to give strong results on all sorts of natural language understanding and generation tasks.

通過微調或提示，大規模預訓練模型可以輕鬆地適應各種自然語言理解和生成任務，並給出非常強大的結果。

Transformer 架構自2018年開始統治NLP領域，NLP領域的進展迎來了井噴。為何預訓練的transformer有如此威力？其中最重要的思想是attention，也就是注意力機制。Attention其實非常簡單，就是句子中每個位置的表徵（representation，一般是一個稠密向量）是通過其他位置的表徵加權求和而得到。Transformer模型通過每個位置的query, key以及value的表徵計算來預測被掩碼位置的單詞，大致過程如下圖所示，更具體的細節這裡不再贅述。

2.6 為什麼這麼簡單的結構和任務能取得如此威力？

原因在其通用性。

預測下一個單詞這類任務簡單且通用，以至於幾乎所有形式的語言學和世界知識，從句子結構、詞義引申、基本事實都能幫助這個任務取得更好的效果。大模型也在訓練過程中學到了這些信息，讓單個模型在接收少量的指令后就能解決各種不同的NLP問題。也許，大模型就是“大道至簡”的最好詮釋。

基於大模型完成多種NLP任務，在2018年之前靠fine-tuning（微調），也就是在少量針對任務構建的有監督數據上繼續訓練模型。後來則出現了prompt（提示學習）這種形式，只需要對任務用語言描述或者給幾個例子，模型就能很好的執行以前從未訓練過的任務。

大模型還改變了NLP的範式

傳統的NLP是流水線範式：先做詞法（如分詞、命名實體識別）處理，再做句法處理（如自動句法分析等），然後再用這些特徵進行領域任務（如智能問答、情感分析）。這個範式下，每個模塊都是由不同模型完成的，並需要在不同標註數據集上訓練。而大模型出現后，就完全代替了流水線模式，比如：

機器翻譯：用一個模型同時搞多語言對之間的翻譯
智能問答：基於LPLM(large pretrained language model）微調的模型效果明顯提升
其他NLU(natural language understanding)任務如NER(Named entity recognition)、情感分析也是類似

更值得一提的是 NLG (natural language generation)，大模型在生成通順文本上取得了革命性突破，對於這一點玩過ChatGPT的同學一定深有體會。

大模型能在NLP任務上取得優異效果是毋庸置疑的，但我們仍然有理由懷疑大模型真的理解語言嗎，還是說它們僅僅是鸚鵡學舌？

2.7 大模型能真正理解人類語言嗎？

要討論這個問題，涉及到什麼是語義，以及語言理解的本質是什麼。關於語義，語言學和計算機科學領域的主流理論是指稱語義（denotational semantics），是說一個單詞短語或句子的語義就是它所指代的客觀世界的對象。與之形成鮮明對比的是，深度學習NLP遵循的分佈式語義（distributional semantics），也就是單詞的語義可以由其出現的語境所決定。

Meaning arises from understanding the network of connections between a linguistic form and other things, whether they be objects in the world or other linguistic forms.

意義來源於理解語言形式與其他事物之間的連接，無論它們是語言形式還是世界上其他的物體。

引用NLP大佬Manning的原話，用對語言形式之間的連接來衡量語義的話，現在的大模型對語言的理解已經做的很好了。但局限性在於，這種理解仍然缺乏世界知識，也需要用其他模態的感知來增強，畢竟用語言對圖像和聲音等的描述，遠不如這些信號本身來的直接。（沒錯，GPT-4！）

三、AIGC（AI Generated Content）

在大模型的加持下，AIGC有望幫助內容生成跨越新時代。

3.1 簡單認識AIGC

什麼是AIGC？

目前，對AIGC這一概念的界定，尚無統一規範的定義。國內產學研各界對於AIGC的理解是“繼專業生成內容（Professional Generated Content，PGC）和用戶生成內容（User Generated Content，UGC）之後，利用人工智能技術自動生成內容的新型生產方式”。

AIGC能做什麼？

AIGC的發展歷程

3.2 AIGC熱門技術

AIGC技術中，耳熟能詳的當屬GPT和Stable Diffusion了，作為一個技術er，應當了解一下其中的核心技術：Transformer、GPT、Diffusion、CLIP、Stable Diffusion

3.2.1 Transformer

Transformer主要用在語言模型（LM）上，Transformer是一個完全依賴於自注意力機制（Self-Attention）來計算其輸入和輸出的表示的轉換模型，可以并行同時處理所有的輸入數據，模仿人類聯繫上下文的習慣，從而更好地為大語言模型（LLM）注入意義並支持處理更大的數據集。

自注意力機制(Self-Attention)：例：翻譯The animal didn't cross the street because it was too tired. 以前的模型在處理該句子時，無法像人類一樣判斷it代指animal還是street，而Self-Attention機制的引入使得模型不僅能夠關注當前位置的詞，還能夠關注句子中其他位置的詞，從而在翻譯時關聯it和animal，提高翻譯質量

語言模型(LM)是指對語句概率分佈的建模。具體是判斷語句的語序是否正常，是否可以被人類理解。它根據句子中先前出現的單詞，利用正確的語序預測句子中下一個單詞，以達到正確的語義。例如，模型比較“我是人類”和“是人類我”出現的概率，前者是正確語序，後者是錯誤語序，因此前者出現的概率比後者高，則生成的語句為“我是人類”

大型語言模型(LLM)是基於海量數據集進行內容識別、總結、翻譯、預測或生成文本等的語言模型。相比於一般的語言模型，LLM 識別和生成的精準度會隨參數量的提升大幅提高。

這裡僅列出了Transformer整體模型。

3.2.2 GPT

當前最熱門的大模型ChatGPT，其採用的大規模預訓練模型GPT-3.5，核心便是transformer和RLHF兩種語言模型。GPT的全稱是Generative Pre-Trained Transformer，顧名思義，GPT的目的就是以Transformer為基礎模型，使用預訓練技術得到通用的文本模型。

預訓練：指先通過一部分數據進行初步訓練，再在這個訓練好的基礎模型上進行重複訓練，或者說“微調”；

推理：指將預訓練學習到的內容作為參考，對新的內容進行生成或判斷。

預訓練是模型運作的主要部分，所需要的精度較高，算力需求也較高;推理則相反。

人類反饋信號強化學習（RLHF）：指使用強化學習的方式直接優化帶有人類反饋的語言模型，使得語言模型能夠與複雜的人類價值觀“對齊”。它負責 ChatGPT 預訓練中微調的部分，首先在人類的幫助下訓練一個獎賞網絡(RM)，RM 對多個聊天回復的質量進行排序，從而增加 ChatGPT 對話信息量，使其回答具有人類偏好。

目前已經公布論文的有文本預訓練GPT-1，GPT-2，GPT-3，以及圖像預訓練iGPT。GPT-4是一個多模態模型，具體細節沒有公布。最近非常火的ChatGPT和今年年初公布的InstructGPT是一對姐妹模型，是在GPT-4之前發布的預熱模型，有時候也被叫做GPT3.5。ChatGPT和InstructGPT在模型結構，訓練方式上都完全一致，即都使用了指示學習（Instruction Learning）和人工反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF）來指導模型的訓練，它們不同的僅僅是採集數據的方式上有所差異。如下圖所示，GPT-1，GPT-2，GPT-3三代模型都是採用的以Transformer為核心結構的模型，不同的是模型的層數和詞向量長度等超參。

（其中Trm是一個Transformer結構）

下面將從GPT-1、GPT-2、GPT3、GPT3.5一直到GPT4，對GPT做一個簡單介紹。

GPT-1

主要解決的問題：怎麼在無標號數據上面預訓練大模型？

GPT使用語言模型來進行預訓練，並使用了n-gram方法對當前單詞進行預測。通俗的說，也就是根據前k個單詞來預測下一個單詞誰什麼，大量高質量文本語料就意味着自動獲得了海量的標註數據。最關鍵的是如何優化目標函數，因為不同的任務目標函數設定是不一樣的。GPT使用對數最大似然函數來計算loss，使用transformer的解碼器（因為有掩碼不能看到完整的句子信息），並且其中使用了position embedding引入了位置信息。

怎麼做模型微調？

微調時使用的是帶有標號的數據集，每次輸入長度為m的一條序列x，這條序列有一個標號y。模型根據輸入的序列x預測其標號y（標準分類任務）。要考慮的是如何將nlp下游的子任務表示成我們想要的形式，即一些序列和其相應的標號。

怎麼根據任務的不同改變下游輸入？

如下圖所示，其中start（起始）、delim（分割）和 extract（終止）是特殊字符，文本中不會出現的字符。

分類任務(classification)：輸出是分類類別。
蘊含任務(entailment)：輸出是是與否，是否蘊含這個關係。
相似性任務：相似是一個對稱關係，但是語言模型是有順序的，所以做了兩種拼接，最後輸出是二分類，相似或不相似。
多選題：問一個問題給出幾個答案選出認為正確的問題，輸出的是每個答案對於這個問題是正確答案的置信度。

GPT-2

主要解決的問題：當模型被別人用更大的數據集參數量打敗時，應該怎麼做？

GPT2雖然還是在做語言模型，但是下游任務使用了一個叫做zero-shot的設定，即做下游任務時不需要下游任務的任何標註信息，也不需要訓練模型——只要預訓練一個大模型來預測子任務，這個預訓練的大模型在任何地方都可以用。

GPT1和GPT2的區別

在GPT1時我們在構建下游任務輸入時引入了起始、截斷和終止符，這些模型在開始的預訓練階段時沒有看到的，但是有微調的情況時，模型可以再學習到這些符號的意思。但是GPT2要做zero-shot時，在做下游任務時模型不能被調整了，再引入這些特殊字符時模型會感到很困惑，所以在構建下游任務輸入時不能引入那些模型沒見過的符號，而需要使下游任務的輸入和之前預訓練時模型看到的文本長得一樣，輸入形式應該更像一個自然語言。

例如：在做句子翻譯任務時，訓練的句子可以被寫為：(translate to french, english text, french text).

其中translate to french在後文叫做prompt也叫做提示，相當於做了一個特殊的提示詞。

如果要做閱讀理解任務時：可以寫作(answer the question, document（閱讀的文本）, question, answer)

answer the question相當於任務提示。

這些構建提示詞的方式是前人提出的，假設為如果訓練的模型足夠強大就可以理解這些提示詞的意思，而且這種提示詞在文本中也比較常見，模型可以理解。

GPT2的數據集

沒有選擇Common Crawl這種具有很多冗餘無用信息的項目，選用的是reddit裡面已經被人工篩選出的有意義的，並且具有至少3karma值的網頁進行數據處理，大概有800萬個文本，40gb的文字。

GPT-3

主要解決的問題：

1.做下遊子任務時需要大量有標號的數據集。

2.樣本沒有出現在數據分佈裡面，大模型的泛化性不見得比小模型更好。微調效果好不能說明預訓練模型泛化性好，因為可能是過擬合預訓練的訓練數據，這些訓練數據與微調使用的數據剛好有一定的重合性。

3.人類不需要一個很大的數據集做任務。

為了解決上面幾個問題，GPT-3的訓練使用了情境學習（In-context Learning），它是元學習（Meta-learning）的一種，元學習的核心思想在於通過少量的數據尋找一個合適的初始化範圍，使得模型能夠在有限的數據集上快速擬合，並獲得不錯的效果。

GPT3的數據集

使用了之前GPT2中棄用的Common Crawl的數據，構建數據步驟：

1、使用之前的reddit的數據作為正例，Common Crawl作為負例訓練二分類器，預測Common Crawl的網頁，過濾掉不好的

2、使用lsh算法（常用技術）去重

3、增加已知高質量數據，把之前的BERT、GPT1、GPT2數據集拿過來

4、因為Common Crawl數據集還是很臟，所以在真實採樣時賦予了一定權重進行採樣：

GPT3.5（ChatGPT/InstructGPT）

主要解決的問題：預訓練模型具有偏見性。

預訓練模型就像一個黑盒子，沒有人能夠保證預訓練模型不會生成一些包含種族歧視，性別歧視等危險內容，因為它的幾十GB甚至幾十TB的訓練數據里幾乎肯定包含類似的訓練樣本。InstructGPT/ChatGPT都是採用了GPT-3的網絡結構，通過指示學習構建訓練樣本來訓練一個反應預測內容效果的獎勵模型（RM），最後通過這個獎勵模型的打分來指導強化學習模型的訓練。

什麼是指示學習？

指示學習是谷歌Deepmind的Quoc V.Le團隊在2021年的一篇名為《Finetuned Language Models Are Zero-Shot Learners》文章中提出的思想。指示學習(Instruct)和提示學習(Prompt)的目的都是去挖掘語言模型本身具備的知識。不同的是Prompt是激發語言模型的補全能力，例如根據上半句生成下半句，或是完形填空等。Instruct是激發語言模型的理解能力，它通過給出更明顯的指令，讓模型去做出正確的行動。指示學習的優點是它經過多任務的微調后，也能夠在其他任務上做zero-shot，而提示學習都是針對一個任務的。泛化能力不如指示學習。

我們可以通過下面的例子來理解這兩個不同的學習方式：
1.提示學習：給女朋友買了這個項鏈，她很喜歡，這個項鏈太____了。
2.指示學習：判斷這句話的情感：給女朋友買了這個項鏈，她很喜歡。選項：A=好；B=一般；C=差。

怎麼消除偏見的？

人工反饋的強化學習(Reinforcement Learning from Human Feedback，RLHF)，將人工反饋作為強化學習的獎勵，將模型的輸出內容和人類喜歡的輸出內容的對齊。人類喜歡的不止包括生成內容的流暢性和語法的正確性，還包括生成內容的有用性、真實性和無害性。

ChatGPT和InstructGPT的訓練方式相同，不同點僅僅是它們採集數據上有所不同，但是並沒有更多的資料來講數據採集上有哪些細節上的不同。考慮到ChatGPT僅僅被用在對話領域，猜測ChatGPT在數據採集上有兩個不同：1. 提高了對話類任務的佔比；2. 將提示的方式轉換Q&A的方式。

GPT-4

GPT-4相較ChatGPT全方位升級，包括升級多模態模型、支持複雜問題解決、可靠性與安全性提升、推出可預測深度學習堆棧和開源Evals評估框架。

1.多模態模型：支持圖片輸入，文本能力升級

根據OpenAI 官網案例，GPT-4能夠發現圖片中的異常之處，明白“梗圖”中的含義和笑點，甚至能直接閱讀並分析帶有圖片的論文。
文本能力方面，GPT-4的表現顯著優於現有大型語言模型。GPT-4能夠處理超過2.5萬字的文本，允許長篇內容創建、擴展對話以及文檔搜索和分析等應用場景。

2.支持複雜性問題解決，可靠性與安全性顯著提升

提升各種專業和學術水準並有較好表現。GPT-4在人類模擬考試中的表現超越GPT-3.5。在沒有專門培訓的情況下，GPT-4在律師考試、LSAT 、GREQuantitative等測試中的得分基本全部高於GPT-3.5。
GPT-4在語言風格方面得到更新。與具有固定冗長語氣和風格的經典ChatGPT不同，開發人員可以通過描述，在系統中規定AI的語言風格，即擁有“自定義”的功能。

GPT-4在可靠性與安全性方面實現最好結果。

3.推出可預測深度學習堆棧，開源 Evals 評估框架

Evals可用於分析 GPT-4 等模型的性能來評估其有效性。藉助 Evals，程序員可以使用數據集生成問題，評估 OpenAI 模型響應的準確性與各種數據集和模型的功效。

3.2.3 DM（Diffusion Model，擴散模型）

“擴散” 來自一個物理現象：當我們把墨汁滴入水中，墨汁會均勻散開；這個過程一般不能逆轉，但是 AI 可以做到。當墨汁剛滴入水中時，我們能區分哪裡是墨哪裡是水，信息是非常集中的；當墨汁擴散開來，墨和水就難分彼此了，信息是分散的。類比於圖片，這個墨汁擴散的過程就是圖片逐漸變成噪點的過程：從信息集中的圖片變成信息分散、沒有信息的噪點圖很簡單，逆轉這個過程就需要 AI 的加持了。

研究人員對圖片加噪點，讓圖片逐漸變成純噪點圖；再讓 AI 學習這個過程的逆過程，也就是如何從一張噪點圖得到一張有信息的高清圖。這個模型就是 AI 繪畫中各種算法，如Disco Diffusion、Stable Diffusion中的常客擴散模型（Diffusion Model）。

這裡僅對Diffusion模型原理進行一個大致介紹，更加細節的推理不做贅述，有興趣的同學可以自行學習。

3.2.4 CLIP（ Contrastive Language-Image Pre-Training，大規模預訓練圖文表徵模型）

大規模預訓練圖文表徵模型用4億對來自網絡的圖文數據集，將文本作為圖像標籤，進行訓練。進行下游任務時，只需要提供和圖上的concepts對應的文本描述，就可以進行zero-shot transfer。CLIP為CV研究者打開了一片非常非常廣闊的天地，把自然語言級別的抽象概念帶到計算機視覺里。

圖片分類的zero-shot指的是對未知類別進行推理。

CLIP在進行zero-shot transfer時，將數據集中的類別標籤轉換為文字描述（100個類別就是100個文本描述）

zero-shot CLIP怎麼做prediction？

zero-shot prediction：基於輸入的圖片，在類別描述中檢索，找到最合適的類別。

Linear-probe evaluation：通過CLIP的image_encoder得到視覺向量，結合標籤做Logistic Regression

CLIP結構非常簡單，將圖片分類任務轉換成圖文匹配任務：

1、用兩個encoder分別處理文本和圖片數據，text encoder使用Transformer，image encoder用了2種模型，ResNet和Vision Transformer(ViT)；

2、encoder representation直接線性投影到multi-modal embedding space；

3、計算兩模態之間的cosine similarity，讓N個匹配的圖文對相似度最大，不匹配的圖文對相似度最小；

4、對稱的cross-entropy loss；

5、數據增強：對resized圖片進行random square crop；

3.2.5 Stable Diffusion

當下AIGC的另一個大熱點，AI繪畫：只輸入文字描述，即可自動生成各種圖像。其核心算法-Stable Diffusion，就是上面提到的文字到圖片的多模態算法CLIP和圖像生成算法DIffusion的結合體。

參考論文中介紹算法核心邏輯的插圖，Stable Diffusion的數據會在像素空間（Pixel Space）、潛在空間（Latent Space）、條件（Conditioning）三部分之間流轉，其算法邏輯大概分這幾步：

1、圖像編碼器將圖像從像素空間（Pixel Space）壓縮到更小維度的潛在空間（Latent Space），捕捉圖像更本質的信息；

2、對潛在空間中的圖片添加噪聲，進行擴散過程（Diffusion Process）；

3、通過CLIP文本編碼器將輸入的描述語轉換為去噪過程的條件（Conditioning）；

4、基於一些條件對圖像進行去噪（Denoising）以獲得生成圖片的潛在表示，去噪步驟可以靈活地以文本、圖像和其他形式為條件（以文本為條件即 text2img、以圖像為條件即 img2img）；

5、圖像解碼器通過將圖像從潛在空間轉換回像素空間來生成最終圖像。

Diffusion和CLIP算法我們上面已經聊過了，潛在空間又是什麼？

大家都有自己的身份證號碼，前 6 位代表地區、中間 8 位代表生日、后 4 位代表個人其他信息。放到空間上如圖所示，這個空間就是“人類潛在空間”。

這個空間上相近的人，可能就是生日、地區接近的人。AI 就是通過學習找到了一個”圖片潛在空間“，每張圖片都可以對應到其中一個點，相近的兩個點可能就是內容、風格相似的圖片。同時這個 “潛在空間” 的維度遠小於 “像素維度”，AI 處理起來會更加得心應手，在保持效果相同甚至更好的情況下，潛在擴散模型對算力、顯卡性能的要求顯著降低。

當 AI 建立了“文字潛在空間”到“圖片潛在空間”的對應關係，就能夠通過文字控制圖片的去噪過程，實現通過文字描述左右圖像的生成。

3.3 大模型使得AIGC有了更多的可能

視覺大模型提高AIGC感知能力

以圖像和視頻為代表的視覺數據是我們這個時代下信息的主要載體之一，這些視覺信息時刻記錄著物理世界的狀態，反映着人的想法、觀念和價值主張。在深度學習時代，主要是基於深度神經網絡模型，比如深度殘差網絡（ResNet），這類模型往往針對單一感知任務進行設計，很難同時完成多種視覺感知任務。而大模型則可以讓AIGC技術解決掉不同場景、環境和條件下的視覺感知問題，並實現魯棒、準確、高效的視覺理解。近年來基於Transformer衍生出來的一系列大模型架構如Swin Transformer、ViTAE Transformer，通過無監督預訓練和微調的範式，在圖像分類、目標檢測、語義分割、姿態估計、圖像編輯以及遙感圖像解譯等多個感知任務上取得了相比過去精心設計的多種算法模型更加優異的性能和表現，有望成為基礎視覺模型（Foundation Vision Model），顯著提升感知能力，助力AIGC領域的發展。

語言大模型增強AIGC認知能力

作為是人類文明的重要記錄方式，語言和文字記錄了人類社會的歷史變遷、科學文化和知識文化。基於語言的認知智能可以更快加速通用人工智能（AGI）的到來。在如今信息複雜的場景中，數據質量參差不齊、任務種類多，存在着數據孤島和模型孤島的問題，深度學習時代對自然語言的處理有着很明顯的不足，包括模型設計、部署困難；數據難以復用；海量無標籤難以進行數據挖掘、知識提取。谷歌和OpenAI分別提出的大規模預訓練模型BERT和GPT，今年來在諸多自然語言理解和生成任務上取得了突破性的性能提升，相信大家現在已經深有感觸。

多模態大模型升級AIGC內容創作能力

在日常生活中，視覺和語言是最常見且最重要的兩種模態，視覺大模型可以構建出人工智能更加強大的環境感知能力，語言大模型則可以學習到人類文明的抽象概念以及認知的能力。如果AIGC技術只能生成單一模態的內容，那麼其應用場景將極為有限、不足以推動內容生產方式的革新。多模態大模型的出現，則讓融合性創新成為可能，極大豐富AIGC技術可應用的廣度。多模態大模型將不同模態的原始數據映射到統一或者相似語義空間中，實現不同模態信號之間的相互理解與對齊。基於多模態大模型，AIGC才能具備更接近於人類的創作能力，並真正的開始展示出代替人類進行內容創作，進一步解放生產力的潛力。

3.4 大模型不是人人玩得起的

大模型門檻比較高，具體表現為參數大、數據大、算力大

參數：語言大模型的參數規模億級～萬億級（BERT作為baseline），圖像大模型參數規模在億級～百億級範圍。模型參數越大，代表着需要存儲模型空間也越變大，需要的成本也就越高。

模型參數是什麼？

aX1+bX2=Y，X1和X2是變量，Y是計算結果，a和b是參數，同理，一個神經網絡模型，無論規模多大，它都是一個函數，只不過這個函數極其複雜，維度極其多，但依然是由參數、變量來組成，我們通過數據來訓練模型，數據就是變量，而參數，就是通過變量的變換，學到的最終的常量。

5年內，模型參數數量從億級別發展到100萬億級，增長100萬倍

數據：模型參數的大幅增長，必然需要更大的數據來訓練，否則模型強大的表徵能力就會輕易地過擬合。由於標註成本和訓練周期的限制，傳統有監督的方式將變得不現實，因此無法全用標註好的監督數據，需要利用自監督的方法，挖掘數據中的信息。從18年BERT的33億詞符，到19年XLNet的330億詞符，20年GPT-3的6800億詞符，數據量以十倍速度增長（英文數據集大小也差不多止於此），22年PaLM 使用了7800億詞符訓練。

不同大模型預訓練數據集規模（大小：GB）的增長對比

算力：儘管“小模型”階段對算力的要求就一直持續增長，但那個階段可以說用1張GPU卡可以解決，也算不上太誇張，很多個體，小企業也都可以玩，但是到了超大規模預訓練模型階段，超大的參數、數據帶來對算力的要求，是普通玩家難以企及的。就算構建了網絡結構，獲取到了數據，但是算力不行，也訓練不起來。從算力需求的角度看，從GPT的18k petaFLOPs，到 GPT-3的310M petaFLOPs，以及PaLM的2.5B petaFLOPs，更直觀的可以看下面這張圖。從成本的角度，感受大模型訓練對算力成本的吞噬——GPT-3的訓練使用了上萬塊英偉達v100 GPU，總成本高達2760萬美元，個人如果要訓練出一個PaLM也要花費900至1700萬美元。

典型的大模型例如GPT BERT GPT-2等的訓練時間

四、一些暢想

素材生產大模型：AIGC在素材圖片生成已經有了落地成果，如果大模型加持下，其素材生成質量和圖像內容理解會不會有一個質的飛躍？利用大模型理解用戶動向，對文字素材進行個性化產出？

智能UI大模型：當下智能UI本質上還是規則約束，大模型會不會實現真正的智能？

用戶理解大模型：推薦大模型？刻畫用戶畫像和用戶動向，統一長尾流量場景模型，預測新疆流用戶偏好（真快，都有人發論文了Chat-REC）

阿里版GPT官宣：所有產品都將接入！

4月11日，在2023阿里雲峰會上，阿里雲推出通義千問大語言模型（LLM），該模型支持多輪交互及複雜指令理解、多模態融合、外部增強API等功能；同時，阿里雲推出企業專屬大模型產品。

會上，阿里董事會主席兼CEO張勇宣布，阿里所有產品未來將接入大模型全面升級，包括淘寶、天貓、高德地圖、菜鳥、餓了么等所有國民級產品。

Foundation model仍然在早期，但未來可期：

Most information processing and analysis tasks, and perhaps even things like robotic control, will be handled by a specialization of one of a relatively small number of foundation models. These models will be expensive and time-consuming to train, but adapting them to different tasks will be quite easy; indeed, one might be able to do it simply with natural language instructions.

引用一句Manning大佬的原話，AI模型收斂到少數幾個大模型會帶來倫理上的風險。但是大模型這種將海量數據中學來的知識應用到多種多樣任務上的能力，在歷史上第一次地非常地接近了（通用）AI的目標：對單一的機器模型發出簡單的指令就做到各種各樣的事情。

參考文獻：

[1] On the Opportunities and Risks of Foundation Models：https://arxiv.org/pdf/2108.07258.pdf

[2] Human-Language-Understanding-amp-Reasoning：https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

[3] Scaling Laws for Neural Language Models：https://arxiv.org/abs/2001.08361

[4] Emergent Abilities of Large Language Models：https://openreview.net/pdf?id=yzkSU5zdwD

[5] Improving Language Understanding by Generative Pre-Training：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

[6] Language Models are Few-Shot Learners：https://arxiv.org/pdf/2005.14165.pdf

[7] Language Models are Unsupervised Multitask Learners：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[8] Training language models to follow instructions with human feedback：https://arxiv.org/pdf/2203.02155.pdf

[9] Deep double descent: where bigger models and more data hurt：https://iopscience.iop.org/article/10.1088/1742-5468/ac3a74/pdf

[10] AIGC白皮書

[11] 超大規模智能模型產業發展報告

[12] 國海證券-計算機行業開啟AI新篇章：人工智能系列深度報告：AIGC行業綜述篇

[13] 安信證券-半導體行業AI算力產業鏈梳理–技術迭代推動瓶頸突破，AIGC場景增多驅動算力需求突破

[16] 知乎：ChatGPT/InstructGPT詳解：https://zhuanlan.zhihu.com/p/590311003

[17] 知乎：超大型人工智能：從GPT->GPT2->GPT3的發展歷程+大規模預訓練神經網絡模型原理詳解：https://zhuanlan.zhihu.com/p/591146772

[18] 知乎：什麼是大模型？超大模型和 Foundation Model 呢？：https://www.zhihu.com/question/498275802

[19] stable diffusion 原理是什麼？stable diffusion 原理介紹 – AI繪畫每日一帖：https://www.nolibox.com/creator_articles/principle_of_stablediffusion.html

[20] 光大證券- GPT4全方位升級，AI商業化時代來臨

本文鏈接：https://www.8btc.com/article/6813626

轉載請註明文章出處