英特爾Ponte Vecchio早期芯片或以1.37GHz頻率達成45 TFLOPs性能

2021 架構日活動期間,英特爾披露了 Xe HPC“Ponte Vecchio”加速卡的諸多技術細節,並且分享了基於 A0 原型的一些初步性能數據。通過簡單的數學計算,TechPowerUp 推測原型卡的運行頻率在 1.37GHz 左右。但在 Sapphire Rapids 至強處理器平台上,單個 Ponte Vecchio OAM(雙堆棧 MCM)還是實現了至少 45 TFLOPs 的 FP32 吞吐量。

1.jpg

(圖 via TechPowerUp)

如此耀眼的成績,已經超越了英偉達 Ampere A100 Tensor Core 40GB 競品所宣傳的 19.5 TFLOPs,此外 AMD Instinct MI100 計算卡也僅提供了 23.1 TFLOPs 的 FP32 性能。

2.jpg

“A0”版本應該是首批從代工廠流片回來的 Ponte Vecchio 原型,且英特爾內部應該正在通過嚴格的 NDA 協議,來下發給 ISV 與行業合作夥伴。

3.jpg

通常情況下,芯片製造商只會將時鐘速率明顯低於最終性能的原型交付給 ISV,以便其充分測試相關功能和開發特定的軟件。

4.jpg

參考英特爾在演示文稿中提到的數據,OAM 封裝的每時鐘周期 FP32 吞吐量為 32768 ops,且單個封裝中的兩個堆棧相當於 128 個 Xe 核心。

5.jpg

每個 Xe HPC 的核心矢量引擎,可在單個時鐘周期內提供 256 次 FP32 操作,那樣單封裝(雙堆棧)的總和為 32468 FP32 ops/clock,約等於 1373MHz 。

6.jpg

不過隨着後續的生產迭代,我們有望看到更高的始終速率、以及吞吐量的線性擴展。不過考慮到芯片的龐大尺寸和功率消耗(傳聞為 600W),最終運行頻率卡在 1.37GHz 也不是不可能。

7.jpg

在用功耗換性能的情況下,英特爾甚至會要求廠商為 OAM 搭配高性能的水冷散熱方案。至於其能否在 HPC 市場獲得充分的認可,仍有待時間去檢驗。

8.jpg

(0)
上一篇 2021-08-21 12:26
下一篇 2021-08-21 13:24

相关推荐