特斯拉披露自研Dojo超算項目新進展 測試性能強到一度讓電網跳閘

作為特斯拉自行定製的超算平台,Doji 旨在為該公司的人工智能(AI)/ 機器學習(ML)應用提供支撐。尤其是利用其自動駕駛車隊採集的視頻數據,以展開相關訓練。此前這家電動汽車巨頭已經擁有一台基於 NVIDIA GPU 的大型超算,但 Dojo 已用上特斯拉的自研芯片和全套基礎設施。

1.webp

Electrek 預計,這台定製超算可提升特斯拉使用視頻數據訓練神經網絡的能力,相關計算機視覺技術可為其自動駕駛工作提供至關重要的支撐。

事實上,早在去年的 AI Day 活動期間,特斯拉就已表示在抓緊打造 Dojo 超算。在每套芯片+訓練塊的基礎上,該公司還致力於構建一套完整的 Dojo 機櫃(或 Exapod 集群)。

2.webp

時隔一年,特斯拉在周五的 AI Day 活動期間,公布了 Dojo 項目取得的最新進展。

該公司證實,其現已能夠通過一個 Dojo 塊(tile)取代六張 GPU、且更具成本優勢。

3.webp

更確切地說,該公司已成功地從一套“芯片+訓練塊”、發展到了現在的“系統托盤”/ 完整機櫃。

每個托盤包含了六個這樣的計算塊,且性能相當於 3~4 個滿載的超算機架。

4.webp

目前該公司正在將主機接口集成到系統托盤上,以構建一套完整的大型主機組件,以將這些系統托盤安裝到一個 Dojo 機櫃中。

不過在將幾個機櫃組合成 Dojo Exapod 所需的基礎設施之前,該公司仍需對其展開更多研發測試。

5.webp

Dojo 首席系統工程師 Bill Chang 補充道 —— 為應對前所未有的散熱和功率密度,他們必須重新審視數據中心基礎設施的各個方面,以開發定製的高性能散熱與電力系統。

尷尬的是,今年早些時候的基礎設施測試,還對當地電網的變電造成了巨大的衝擊。最終在導致電網跳閘並被政府致電“問候”之前,他們已將功耗推升到超過 2 兆瓦。

7.webp

最後,特斯拉分享了 Dojo Exapod 的關鍵規格數據 —— 1.1 EFLOP @ BF16 / CPP8 性能、1.3 TB SRAM、以及 13 TB 的高帶寬 DRAM 。

如果一切順利,該公司計劃在 2023 年 1 季度擁有首個完整的 Exapod 集群(目前計劃在帕羅奧托擁有 7 個),同時試圖藉助該活動招募到更多人才。

(0)
上一篇 2022-10-02 13:21
下一篇 2022-10-02 14:21

相关推荐