性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

3月21日,中國本土AI創新企業寒武紀正式發布了新款訓練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,集成寒武紀MLU-Link多芯互聯技術,主要面向AI訓練任務。寒武紀MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內封裝兩個Die,因此可提供兩倍于思元370加速卡的內存、編解碼資源。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

架構基於Cambricon MLUarch03,支持AI訓練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數據格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

該卡採用7nm製造工藝,集成48GB LPDDR5內存,內存帶寬614.4GB/s,PCIe 4.0 x16系統接口,整卡最大訓練功耗250W,全高全長雙插槽設計,系統被動散熱。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

單卡架構圖

通過MLU-Link多芯互聯技術,提供卡內、卡間互聯功能,並專門設計了MLU-Link橋接卡,可實現4張加速卡為一組、8顆思元370芯片全互聯。

每張加速卡通訊吞吐性能200GB/s,帶寬為PCIe 4.0的大約3.1倍,可高效執行多芯多卡訓練、分佈式推理任務。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

4卡橋接

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

單機8卡部署配置

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行
4卡橋接拓撲

根據官方數據,Cambricon NeuWare SDK實測,在常見的4個深度學習網絡模型上,MLU370-X8單卡性能與主流350W RTX GPU相當。

多卡加速,藉助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的優化,8卡環境下達到更優的并行加速比,YOLOv3、Transformer、BERT、ResNet101訓練任務中,8卡并行平均性能達350W RTX GPU的155%。

寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款,從規格來看,350W功耗的目前只有RTX 3090、RTX 3080 Ti。

當然,一個是專用AI加速卡,一個是GPU通用遊戲卡,其實沒有太大可比性。

MLU370-X8產品定位中高端,與高端訓練產品思元290、玄思1000相互結合,進一步豐富了寒武紀的訓練算力交付方式,同時與基於思元370芯粒(chiplet)技術構建的MLU370-X4、MLU370-S4智能加速卡協同,形成完整的雲端訓練、推理產品組合。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

單卡性能對比

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

8卡性能對比

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡并行

(0)
上一篇 2022-03-21 19:03
下一篇 2022-03-21 19:03

相关推荐