英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平台的2.5倍

在 Hot Chips 34 大會期間,英特爾再次詳細介紹了 Sapphire Rapids HBM 處理器 + Ponte Vecchio(2-Stack)GPU 平台的潛力,稱該服務器平台的性能可達英偉達 A100 競品的 2.5 倍。英特爾首席 GPU 計算架構師 Hong Jiang 在演講中指出,Ponte Vecchio 具有三種配置。

0.jpg

(via WCCFTech)

從單一 OAM、到配備 Xe Links 的 x4 子系統,Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於 Sapphire Rapids 雙路服務器平台之上。

1.png

其中 OAM 支持 4 GPU 和 8 GPU 平台的 all-to-all 拓撲,輔以英特爾 oneAPI 軟件堆棧。

2.png

作為一個零級(Level Zero)API,其為跨架構編程支持提供了低層級的硬件接口。

3.png

oneAPI 主要特性如下:

● 提供面向其它工具和加速器設備的接口;

● 支持精細的增益控制、以及低延遲的加速器特性;

● 具有多線程設計;

● 將 GPU 作為驅動程序的一部分而提供。

4.png

性能指標方面,2-Stack Ponte Vecchio GPU 配置(如單一 OAM 上的配置),可提供高達 52 TFLOP 的 FP64 / FP32 算力。

5.png

另有 419 TFLOP 的 TF32(XMX Float 32)、839 TFLOP 的 BF16 / FP16,以及 1678 TFLOPs 的 INT8 算力。

6.png

英特爾還詳細說明了 Ponte Vecchio 的緩存大小 / 峰值帶寬 —— 比如 GPU 上的寄存器為 64 MB,提供 419 TB/s 的帶寬。

7.png

L1 緩存也為 64 MB,帶寬 105 TB/s(4:1)。L2 緩存為 408 MB,帶寬 13 TB/s(8:1)。HBM 內存池高達 128 GB,輔以 4.2 TB/s(4:1)的帶寬。

8.png

以下是英特爾為 Ponte Vecchio 配備的系列計算效率(compute efficiency)技術。

11.png

Register File(寄存器文件):

● Register Caching(寄存器緩存)

● Accumulators(累加器)

12.png

L1 / L2 Cache:

● Write Through(直寫)

● Write Back(回寫)

● Write Streaming(流式寫入)

● Uncached(不緩存)

13.png

Prefetch(預取):

● 支持 L1 和(或)L2 緩存的軟件(指令)預取;

● 支持到 L2 獲取指令和數據的 Command Streamer 預取。

14.png

英特爾解釋稱,更大的 L2 緩存,可為 2D-FFT 和 DNN 等工作負載帶來巨大的效益,並且分享了完整 Ponte Vecchio GPU 和 80 / 32 MB 模塊之間的一些性能比較。

13.png

此外英特爾搬出了運行 CUDA 和 SYCL 的英偉達 Ampere A100,與使用 SYCL 的 Ponte Vecchio GPU 平台展開了性能橫比。

14.png

在 miniBUDE(一種可預測配體與目標結合能的計算工作負載)中,Ponte Vecchio GPU 模擬測試結果的速度,更是 Ampere A100 的 2 倍。

15.png

另外在 ExaSMR 核反應堆設計仿真設計中,英特爾 Ponte Vecchio GPU 也以 1.5 倍領先於英偉達競品方案。

16.png

不過需要指出的是,英偉達早已向市場投放了性能更加強悍的 Hopper H100,所以英特爾這裡拿 Ampere A100 進行比較還是相當投機取巧的。

17.png

言歸正傳,英特爾概述了 Ponte Vecchio 旗艦數據中心 GPU 的一些關鍵特性,例如 128 個 Xe 內核、128 個光追(RT)單元、HBM2e 顯存、以及連接到一起的 8 個 Xe-HPC GPU 。

21.png

該芯片在兩個獨立的堆棧中提供了高達 408 MB 的 L2 緩存、之間通過 EMIB 互連,且各部分芯片混用了 Intel 7 和台積電 N7 / N5 等多個工藝節點。

22.png

由兩塊(2 Tiles)組成的每個堆棧有 16 裸片,最大的 active die 尺寸為 41 m㎡、Compute Tile 則是 650 m㎡ 。

23.png

以下是 Ponte Vecchio GPU 的完整小芯片 / 工藝節點描述:

● 英特爾 7nm

● 台積電 7nm

● Foveros 3D 封裝

● EMIB 互連

● 10nm 增強型 Super Fin

● Rambo Cache

● HBM2 高帶寬顯存

24.png

以下是英特爾 Ponte Vecchio 芯片的 47 塊(Tiles)組成:

● 16 個 Xe HPC(內/外部)

● 8 個 Rambo Cache(內部)

● 2 個 Xe Base(內部)

● 11 個 EMIB(內部)

● 2 個 Xe Link(外部)

● 8 個 HBM(外部)

25.png

Ponte Vecchio GPU 使用了 8 個 HBM 8-Hi 堆棧,總共包含 11 個 EMIB 互連,完整封裝尺寸為 4843.75 m㎡ 。

26.png

設計中還提到了高密度 3D Forveos 封裝的 Meteor Lake CPU,可知其 bump pitch 的間距為 36u 。

27.png

【總結】Ponte Vecchio GPU 不是一個單獨的芯片,而是由 47 個不同工藝製程的小芯片“組合”得來。

30.jpg

遺憾的是,受英特爾多次跳票的影響,使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超級計算機項目也被迫推遲。

40.jpg

即便如此,英特爾還是透露了下一代 Rialto Bridge GPU 。可知作為 Ponte Vecchio GPU 的繼任者,其有望於 2023 年開始提供樣品。

(0)
上一篇 2022-08-23 09:50
下一篇 2022-08-23 10:02

相关推荐