阿里雲啟動全球最大智算中心,雲服務商找到了新的算力出口

訪問原網址

2022年是雲計算行業一個明顯的波谷,但增長還要繼續,如何判斷新的算力增長方向,也就成為擺在各大雲服務商眼前最重要的事。

對於今年才加入阿里雲,並擔任全球銷售總裁的蔡英華來說,智算中心屢次出現在他的計劃清單上。

阿里雲啟動全球最大智算中心,雲服務商找到了新的算力出口

8月30日,阿里雲宣布正式推出全棧智能計算解決方案“飛天智算平台”,並啟動張北和烏蘭察布兩座超大規模智算中心。其中張北超級智算中心總建設規模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成為全球最大的智算中心。

智算:從門庭冷落到扛起大旗

雲服務商並不是現在才開始重視AI算力,早在數年前,雲服務商們就希望AI應用的爆發,能夠帶來大量的算力消耗,顯然,雲服務商的夢想起初並沒有成真。

一位雲計算行業高管表示,“過去AI和雲的結合併不盡如人意,一方面,純做AI的‘獨角獸’都活得一般,因為他們沒有規模化的用戶群,另一方面,大型公有雲廠商做的AI也門庭冷落,AI本身規模化價值比較分散。”

在鈦媒體App看來,至少兩個因素改變了市場風向,一是AI產業自身的發展,二是雲計算廠商技術的進步。

蔡英華表示,阿里雲發現了兩個比較明顯的趨勢。 其一,當下中國已經有58%的企業在使用人工智能,全球平均水平則是35%,數字化轉型將帶來大量的數據,預計到2025年中國的數據量將達到48.6ZB,每三個半月AI所需要的算力會翻一倍,刺激和驅動着我國算力基礎設施的升級。

其二,除了算力供給總量提升,算力結構也在發生變化,十三五期間,我國算力總規模增長近5倍,通用算力增長接近3倍左右,但是智能算力增長近百倍,智能算力在融合算力中的佔比達到了40%,在未來可能會更多。

此外,早期雲服務商的精力放在通用算力市場,因為通用算力有龐大的客戶群,也更容易實現增長,像高性能計算這類雲服務,需要投入昂貴的硬件和大量人力成本,自然就不在雲服務商的優先考慮範圍之內。

阿里雲智算中心

阿里雲智算中心

智能計算不同於通用型計算,需要海量數據對AI模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡以上規模的算力輸出最低往往僅有40%左右,這導致了智能算力成本高昂,制約了產業發展。而當下阿里雲通過體系化的技術創新,改變了智能計算的損耗難題,將千卡并行計算效率提升至90%以上。

如今行業形勢發生了變化,需求和供給兩端共同推升了智算產業的發展,通用算力需求仍在增長,但顯然不及智算的潛在價值,兩者處於不同增長曲線的不同階段,此時雲服務商選擇“啃下難啃的骨頭”,大力開發智算市場,也就成為順理成章的動作。

進階:智算不是算力硬件堆砌

智算中心是確定無疑的行業趨勢,也可能是未來數十年最大的增長空間,在阿里雲智能副總裁、行業解決方案銷售部總經理霍嘉看來,很多廠商都在談智算,阿里雲智算平台的獨特之處來自於三個方面。

第一,阿里巴巴的業務實踐,無論是M6的預訓練大模型、小蠻驢自動駕駛,還是電商體系的智能客服,包括以圖搜物等一系列業務,都是阿里自身的實踐。飛天智算支撐阿里AI日均1萬億次調用,服務全球10億人。

其中,拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時。達摩院大模型M6僅使用512張GPU,在10天內就完成了10萬億參數模型訓練,能耗僅為GPT-3在同等參數規模下的1%。

阿里雲啟動全球最大智算中心,雲服務商找到了新的算力出口

第二,從平台方案的角度看,智算平台建設本質是場景優化或者場景引入,一定效率為王,阿里雲提供了一橫一縱的平台,“橫”即融合算力平台,無論是X86還是GPU,還是其他ARM等所有芯片架構,通過軟件層的飛天雲計算操作系統,使智算中心變成一台計算機,提供融合算力。

“縱”即上層開發工具,現在開發者或者企業在開發AI應用時,要用12種以上的工具,阿里雲提供了一站式的AI+大數據的開發平台,提升整體的研發效率。

據了解,阿里雲大數據+AI一體化平台支撐開發與運維全流程,尤其在模型訓練環節,提供分佈式訓練框架,可以對分佈式策略進行自動組合和調優,將訓練效率提升了11倍以上。此外,阿里云為用戶提供了一站式的通用推理優化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,可將推理效率提升6倍以上。

第三,綠色低碳。飛天智算在技術減排、能源結構優化、區域布局優化、供應鏈減碳以及資源利用優化五個方面來降低單位算力的碳排放。在技術減排方面,通過液冷、電源技術以及智能運維等方式降低能耗,PUE最低可達1.09。

搶灘:算力產業上下游殊途同歸

不同廠商入局智算中心,其擅長領域和切入思路也不同,據統計,目前已有數十個城市探索建設智算中心,大多集中在一二線城市,數字經濟越發達的地方,對智算中心的算力也就越大。

在數據中心遍布全國的情況下,智算中心為何還有巨大的增長預期?這是因為智算中心與數據中心面向不同的業務訴求。

以阿里巴巴為例,張北智算中心承載着AI大規模訓練模型、AI Earth地球科學雲平台、數字人、電商等場景,烏蘭察布智算中心主要服務自動駕駛、生物製藥、科學探索、元宇宙等場景。

外部客戶對智算中心也有類似的需求,雲服務商可以使其高性價比地獲取智算能力。不久前,小鵬汽車基於飛天智算在烏蘭察布建設智算中心“扶搖”,算力規模達600PFLOPS,是國內最大的自動駕駛智算中心,將自動駕駛模型訓練提速近170倍。

這些快速湧現的業務場景,推動着智算中心服務商的發展,值得注意的是,不僅是雲服務商,上至AI獨角獸,下至服務器廠商和芯片廠商,都在試圖搶佔智算中心的更多話語權。

例如,商湯於2022年1月份正式啟動了商湯智算中心運營,設計峰值算力高達3740 Petaflops(1 Petaflop等於每秒1千萬億次浮點運算);浪潮、曙光等服務器廠商奮勇爭先,在各地布局新建智算中心;英特爾one API生態OneAPI能夠提供一個適用於各類計算架構的統一編程模型和應用程序接口,開發者只需要開發一次代碼,就可以跑在CPU、GU、FPGA、神經網絡處理器等不同的硬件上。

阿里雲啟動全球最大智算中心,雲服務商找到了新的算力出口

智算生態的新格局在競合中形成,競爭時有發生,例如智算中心的本地化建設,與以公有雲、專有云為服務模式的智算中心,兩者是替代關係。在雲服務模式下,企業客戶和開發者無需關心底層芯片,不管是高性能計算所用的FP64,還是AI訓練所用的FP32,推理所用的FP16,以及控制所用的INT型算力,智算平台都能實現多元算力解耦融合。

合作是必然趨勢,任何一家廠商都不能單獨滿足所有的業務場景,軟硬件一體才能實現最佳實踐,驅動AI產業發展的三要素,算力、算法和數據,都需要經過大量的加工過程,才能推動AI應用的爆髮式增長算力產業上下游廠商共同構成了智算新生態。

(本文首發鈦媒體APP 作者 | 張帥)

媒體報道

      鈦媒體  搜狐  搜狐  鈦媒體  搜狐

相關事件

  • 阿里雲啟動全球最大智算中心,雲服務商找到了新的算力出口  2022-09-02
  • 阿里雲免費向高校提供1億算力,培養跨專業複合型人才  2020-12-22
  • 阿里雲推出雲電腦“無影”,可線上無限擴容升級  2020-09-17
  • 張建鋒談阿里雲轉型:需解決行業碎片化問題  2019-09-25
  • 阿里雲計算髮生法人變更:胡曉明卸任,任庚接任  2019-03-13
(0)
上一篇 2022-09-02 17:29
下一篇 2022-09-02 18:06

相关推荐