上回書說到——
於是乎,我為了驗證這個猜想是否正確,特此前來上海一探究竟。
直接揭曉答案:猜對了!中國最大 AI 芯片——邃思 2.0,正式發布。
而且聽完整場發布會,最直觀的感受便是好多的“第一、首個”:
中國首款支持單精度張量 TF32 數據精度的人工智能芯片。
單精度 FP32/ 張量 TF32 峰值算力,均為國內第一。
中國第一個支持世界最先進存儲 HBM2E 和單芯片 64 GB 內存的產品。
加上其它產品升級,成為國內首家發布第二代 AI 訓練的組合產品。
嗯,看着似乎是有點東西。
中國最大 AI 芯片問世
先來聊聊最為核心的這張芯片。
雖然說邃思 2.0 是面向 AI 雲端訓練,基於第一代的升級,但一個重點是工藝沒有變化。
也就是這張芯片依舊是由格芯的12nm FinFET工藝打造。
尺寸方面,為 57.5 毫米× 57.5 毫米,達到了芯片採用的日月光 2.5D 封裝的極限。
算力方面:
單精度 FP32 算力為 40TFLOPS
單精度張量 TF32 算力為 160TFLOPS
整數精度 INT8 算力為 320TOPS
堆疊存儲方面,搭載的是 HBM2E, 據了解,這是目前業界較為領先的存儲方案。
它具備超大存儲容量和訪存帶寬,最高達到 64GB 和 1.8TB/s, 還可以支持眼下爆火的超大規模模型的訓練。
算力擴展方面,由於邃思 2.0 擁有 300GB/s 的獨立片間互聯通道,因此可以非常靈活。
一個邃思 2.0, 升級三大產品
而隨着邃思 2.0 的到來,燧原科技其他產品也得到了相應地升級。
首先,是雲燧 T20 訓練加速卡。
它是面向數據中心的第二代 AI 訓練加速卡,官方介紹是這樣的:
具有模型覆蓋面廣、性能強、軟件生態開放等特點,可支持多種人工智能訓練場景。
那麼到底性能能搶到什麼程度?
在現場,燧原科技直接亮出的Benchmark!
不難看出,在圖像識別/分類 、NLP、 目標檢測、圖像分割和推薦任務中,與友商相比均有明顯的提升。
(至於這個友商,就是很強的那家,你懂的)
或許你覺得數據還不夠直觀,那就直接來效果吧。
下面是友商和雲燧 T20 處理圖片的速度對比:
處理圖片更多,速度還更快,有木有!
除此之外,還有雲燧 T21 訓練 OAM 模組。
據了解,它是是基於 OCP(開放計算項目)OAM(開放加速模組)標準設計、兼容 OCP OAI 標準(開放加速器基礎設施)的 AI 訓練加速模組。
所面向的數據中心,可以在互聯網、金融、教育、醫療、工業和政務等場景中使用。
雲燧 T21 單精度 FP32 算力最高可達 40TFLOPS、TF32 算力最高則是 160TFLOPS。
與友商的性能對比如下:
最後,燧原科技還升級了它家的馭算 TopsRider 軟件平台:
基於算子泛化技術及圖優化策略,支持主流深度學習框架下的各類模型訓練。
利用 Horovod 分佈式訓練框架與 GCU-LARE 互聯技術相互配合,為超大規模集群的高效運行提供解決方案。
而且編程模型和可擴展算子接口,都是開放的哦。
還搞了一個“大組合”
以為這就完了?
不不不。
燧原科技還把它們搞了個“大組合”——雲燧智算集群(CloudBlazer Matrix 2.0)。
最高單精度算力可以達到 1.3E(130000T),足足是上一代的46 倍。
燧原科技 COO 張亞林表示:
雲燧的互聯接口在單口速度保持不變的前提下,接口數量從 T10 的 4 個增加到 T20 的 6 個,帶寬提升 150%。
用雲燧 T20 可以打造中國 E 級單精度算力集群。
承諾了一個約定
最後的最後,燧原科技還介紹了關於他們接下來的計劃。
雲端訓練計算產品方面,在 2023 年,他們準備發布 T30/T31。
較一代產品相比,性能要達到 14 倍。
雲端推理計算產品方面,也將在 2023 年進行迭代,性能提升 16 倍。
而且還給出了一個燧原產品定理:
至於到了 2023 年,燧原科技能否兌現承諾,就一起拭目以待吧。