Cerebras打破在單個設備上訓練大規模AI模型的紀錄

作為世上最大加速器芯片 CS-2 Wafer Scale Engine 背後的公司,Cerebras 剛又宣布了另一個里程碑 —— 在單個設備上完成了目前最大的自然語言處理(NLP)人工智能模型的訓練。此前也有人嘗試在智能手錶這樣的可穿戴設備設備上訓練 AI 模型,但 Cerebras 這次又將參數提升到了 20 億的量級。

0-1.png

Wafer Scale Engine-2 晶圓級芯片資料圖(來自:Cerebras)

本次演示使用了 OpenAI 的 120 億參數 DALL-E,且所有工作負載無需擴展到橫跨多個加速器的平台上去完成,從而極大地降低了對基礎設施和軟件的複雜性要求。

0-2.jpg

不過需要指出的是,單個 CS-2 系統本身就已經可以媲美超算 —— 7nm 單晶圓(通常可容納數百枚主流芯片),擁有驚人的 2.6 萬億個晶體管、85 萬個內核、40GB 集成緩存,且封裝功耗高達 15kW 。

1.jpg

Cerebras 嘗試在單個芯片上保留多達 200 億個參數的 NLP 模型,以顯著降低數以千計的 GPU 訓練成本、擴展所需的相關硬件需求,並且消除了在它們之間劃分模型的技術難度。

2.jpg

Cerebras 指出,這也是常規 NLP 工作負載的痛點之一,有時動輒需要耗費數月時間才能完成。

3.jpg

由於高度定製,每個正在處理的神經網絡、GPU 規格、以及將它們聯繫到一起的網絡,都是獨一無二的 —— 這些元素必須在初次訓練前就搞定,且無法做到跨系統移植。

4.jpg

至於 OpenAI 的 GPT-3 自然預覽處理模型,它有時已經能夠編寫出讓你誤以為是真人所撰寫的整篇文章,且具有 1750 億個驚人的參數。

5.jpg

不過 DeepMind 在 2021 年底推出的 Gopher,已將這個數字大幅提升到了 2800 億,且 Google Brain 甚至宣布訓練了一個超萬億參數的 Switch Transformer 模型。

17.jpg

Cerebras 首席執行官兼聯合創始人 Andrew Feldman 表示:更大的 NLP 模型,意味着它的準確度也更高。

18.jpg

但通常只有極少數公司擁有如此龐大的必要資源和專業知識,來分解這些大型模型、並將之分散到數百、或數千個 GPU 上去艱苦運算。

19.jpg

正因如此,我們只看到過極少數公司能夠訓練大型 NLP 模型 —— 這對行業內的其他人來說過於昂貴、耗時、且難以使用。

20.jpg

今天,Cerebras 很自豪地宣布普及了 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B,讓整個 AI 生態系統都能夠在幾分鐘內建立大型模型、並在單個 CS-2 平台上展開訓練。

21.jpg

不過與 CPU 領域類似,主頻只是衡量性能的其中一項指標。比如 Chinchilla 就嘗試通過使用更少的參數(700 億個),得出了較 GPT-3 和 Gopher 更好的結果。

(0)
上一篇 2022-06-23 20:11
下一篇 2022-06-23 20:12

相关推荐