為迎接超大模型時代，Meta想要打造“全球最快AI超算”

Meta不僅是全球最大的社交網絡公司，和當下最熱門技術概念“元宇宙”的推行者。它同時也是人工智能（AI）研究的全球頂級公司之一。該公司在AI方面卓越研究成果的背後，必然有強大的算力支持。不過一直以來，Facebook從未對外界公開展示過其算力究竟有多厲害。

為元宇宙加碼！Meta推出全球最快AI超級計算機

文/杜晨

而在今天，Meta公司突然對外宣布了其在打造AI超級計算機方面的最新進展。

根據Meta此次公開透露的結果，其打造的超級計算機AIRSC，目前算力在全球應該已經排到了前四的水平。

這個情況已經足以令人非常震驚。畢竟，在算力方面能夠和RSC相提並論的其它超級計算機，均由中國、美國、日本的國有研究機構運作——而RSC是前五里唯來自於私營機構的超算系統。

這還沒完：這台超級計算機，還在以驚人的速度，變得更快、更強。

Meta預測，到今年7月，也即半年之內，RSC的算力將實現2.5倍的增長。另據專業機構 HPCwire估計，Meta的RSC超級計算機，其運行 Linpack benchmark 的算力將有望達到220 PFlops。

如無意外，RSC將成為名副其實的“全球最快AI超級計算機”。

AIRSC內部，圖片來源：Meta

AI研發進入“超算”時代

首先需要回答一個問題：

什麼樣的AI研究，需要如此強大的超級計算機？

一般的模型，或許可以在一般的電腦或普通的數據中心裡，用一塊或是幾塊顯卡就可以完成訓練。而Meta正在研究的，是比目前的模型參數量要大得多，性能要求更高、更嚴格，訓練花費時間更久的——超大模型。

以識別有害內容為例：CV算法需要能夠以更高的採樣率，處理更大、更長的視頻；語音識別算法需要在極大噪音的複雜背景下達到更高的識別準確度；NLP模型要能夠同時理解多種語言、方言和口音，等等……

在過去，許多算法在跑分數據集上都得到了不錯的成績。然而，Meta是一家幾大洲十億級別用戶量的公司，它必須確保同一個模型投放到生產環境中能夠最大限度保證普適性。所以，一般模型不夠用了，現在要訓練大模型。

訓練大模型，需要大算力——問任何一個從事大模型研究的人，你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成，可在今後，面對新的大模型，我們可等不起幾年……

“在今天，包括識別有害內容等在內的許多重要的工作，都對於超大模型產生了極大的需要，”Meta在其新聞稿中寫道，“而高性能計算系統是訓練這些超大模型的重要組件。”

Meta此次發布的超級計算機AIRSC，全稱為AIResearchSuperCluster（人工智能研究超級計算集群）。

雖然Meta在今天首次公開宣布推出這一系統，實際上RSC的前身版本最早在2017年就已經在Facebook公司內部投入生產使用了。當時，Facebook團隊採用了2.2萬張英偉達V100TensorGPU組成了首個單一集群。該系統每天可以運行大約3.5萬個訓練任務。

據HPCwire預計，這個基於V100GPU的前身版本，按照Linpack benchmark的浮點計算性能應該已經達到了135PFlops。這個水平在全球超算排行榜Top500的2021年11月排名中，已經足以排到第三名了，也即其算力可能已經超越了美國能源部在加州Livermore運作的“山脊”(Sierra)超級計算機。

不過，對於Meta來說，這還遠遠不夠。他們想要的，是世界上最大、最快、最強的AI超級計算機。

這台超算還必須要達到生產環境的數據安全級別，畢竟在未來，Meta的生產系統所用的模型可能直接在它上面訓練甚至運行。

並且，這台超算還需要為用戶——Meta公司的AI研究員——提供不亞於一般訓練機/顯卡的使用便利性，和流暢的開發者體驗。

MetaAIRSC技術項目經理KevinLee 圖片來源：Meta

2020年初，Facebook團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要，決定“重新出發”，採用最頂尖的GPU和數據傳輸網絡技術，打造一個全新的集群。

這台新的超算，必須能夠在大小以EB（超過10億GB）為單位的數據集上，訓練具有超過萬億參數量的超大神經網絡模型。

（例如，中國科研機構智源BAAI開發的“悟道”，以及Google去年用SwitchTransformer技術訓練的混合專家系統模型，都是參數量達到萬億級別的大模型；相比來看，此前在業界非常著名的OpenAIGPT-3語言模型，性能和泛用性已經非常令人驚訝，參數量為1750億左右。）

Meta團隊選擇了三家在AI計算和數據中心組件方面最知名的公司：英偉達、PenguinComputing，和PureStorage。

具體來說，Meta直接從英偉達採購了760台DGX通用訓練系統。這些系統包含共計6080塊Ampere架構TeslaA100Tensor核心GPU，在當時，乃至今天，都是最頂級的AI訓練、推理、分析三合一系統。中間的網絡通信則採用了英偉達InfiniBand，數據傳輸速度高達200GB每秒。

存儲方面，Meta從PureStorage採購了共計231PB的閃存陣列、模塊和緩存容量；而所有的機架搭建、設備安裝和數據中心的後續管理工作，則由從Facebook時代就在服務該公司的PenguinComputing負責。

這樣組建出來的新超算集群，Meta將其正式命名為AIRSC：

圖中顯示的是RSC第一階段（P1）的參數細節。圖片來源：Meta

相較於之前FAIR採用V100 顯卡搭建的計算集群，初代 RSC對於生產級別的計算機視覺類算法帶來了20倍的性能提升，運行英偉達多卡通訊框架的速度提升了超過9倍，對於大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為單位。

值得一提的是，在Meta剛剛做好RSC升級計劃的時候，新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性，RSC能否成功升級換代，打上了一個巨大的問號。

然而，公司業務發展和AI科研的需要，無法等待新冠疫情。負責RSC升級和建造的團隊，以及包括英偉達、PenguinComputing、PureStorage等三家硅谷公司在內的技術合作方，不得不在極大的工期壓力下，完成數據中心的裝修建設、設備的生產和運輸、現場裝機、布線、調試等一系列非常繁瑣和技術要求極高的工作。

更誇張的是由於當時全美各地都有居家隔離令，整個RSC項目團隊的多位負責人，都不得不在家中遠程工作……團隊里的研究員ShubhoSengupta表示，“最讓我感到驕傲的是，我們在完全遠程辦公的條件下完成了（RSC的升級工作）。考慮到項目的複雜性，完全沒有和其它團隊成員見面就能把這些事都辦了，簡直太瘋狂了”