英特爾詳細介紹Ponte Vecchio 性能可達英偉達A100平台的2.5倍

2022-08-23 10:02 • 熱點資訊

在 Hot Chips 34 大會期間，英特爾再次詳細介紹了 Sapphire Rapids HBM 處理器 + Ponte Vecchio（2-Stack）GPU 平台的潛力，稱該服務器平台的性能可達英偉達 A100 競品的 2.5 倍。英特爾首席 GPU 計算架構師 Hong Jiang 在演講中指出，Ponte Vecchio 具有三種配置。

（via WCCFTech）

從單一 OAM、到配備 Xe Links 的 x4 子系統，Ponte Vecchio GPU 不僅能夠單獨運行、也可部署於 Sapphire Rapids 雙路服務器平台之上。

其中 OAM 支持 4 GPU 和 8 GPU 平台的 all-to-all 拓撲，輔以英特爾 oneAPI 軟件堆棧。

作為一個零級（Level Zero）API，其為跨架構編程支持提供了低層級的硬件接口。

oneAPI 主要特性如下：

● 提供面向其它工具和加速器設備的接口；

● 支持精細的增益控制、以及低延遲的加速器特性；

● 具有多線程設計；

● 將 GPU 作為驅動程序的一部分而提供。

性能指標方面，2-Stack Ponte Vecchio GPU 配置（如單一 OAM 上的配置），可提供高達 52 TFLOP 的 FP64 / FP32 算力。

另有 419 TFLOP 的 TF32（XMX Float 32）、839 TFLOP 的 BF16 / FP16，以及 1678 TFLOPs 的 INT8 算力。

英特爾還詳細說明了 Ponte Vecchio 的緩存大小 / 峰值帶寬 —— 比如 GPU 上的寄存器為 64 MB，提供 419 TB/s 的帶寬。

L1 緩存也為 64 MB，帶寬 105 TB/s（4:1）。L2 緩存為 408 MB，帶寬 13 TB/s（8:1）。HBM 內存池高達 128 GB，輔以 4.2 TB/s（4:1）的帶寬。

以下是英特爾為 Ponte Vecchio 配備的系列計算效率（compute efficiency）技術。

Register File（寄存器文件）：

● Register Caching（寄存器緩存）

● Accumulators（累加器）

L1 / L2 Cache：

● Write Through（直寫）

● Write Back（回寫）

● Write Streaming（流式寫入）

● Uncached（不緩存）

Prefetch（預取）：

● 支持 L1 和（或）L2 緩存的軟件（指令）預取；

● 支持到 L2 獲取指令和數據的 Command Streamer 預取。

英特爾解釋稱，更大的 L2 緩存，可為 2D-FFT 和 DNN 等工作負載帶來巨大的效益，並且分享了完整 Ponte Vecchio GPU 和 80 / 32 MB 模塊之間的一些性能比較。

此外英特爾搬出了運行 CUDA 和 SYCL 的英偉達 Ampere A100，與使用 SYCL 的 Ponte Vecchio GPU 平台展開了性能橫比。

在 miniBUDE（一種可預測配體與目標結合能的計算工作負載）中，Ponte Vecchio GPU 模擬測試結果的速度，更是 Ampere A100 的 2 倍。

另外在 ExaSMR 核反應堆設計仿真設計中，英特爾 Ponte Vecchio GPU 也以 1.5 倍領先於英偉達競品方案。

不過需要指出的是，英偉達早已向市場投放了性能更加強悍的 Hopper H100，所以英特爾這裡拿 Ampere A100 進行比較還是相當投機取巧的。

言歸正傳，英特爾概述了 Ponte Vecchio 旗艦數據中心 GPU 的一些關鍵特性，例如 128 個 Xe 內核、128 個光追（RT）單元、HBM2e 顯存、以及連接到一起的 8 個 Xe-HPC GPU 。

該芯片在兩個獨立的堆棧中提供了高達 408 MB 的 L2 緩存、之間通過 EMIB 互連，且各部分芯片混用了 Intel 7 和台積電 N7 / N5 等多個工藝節點。

由兩塊（2 Tiles）組成的每個堆棧有 16 裸片，最大的 active die 尺寸為 41 m㎡、Compute Tile 則是 650 m㎡。

以下是 Ponte Vecchio GPU 的完整小芯片 / 工藝節點描述：

● 英特爾 7nm

● 台積電 7nm

● Foveros 3D 封裝

● EMIB 互連

● 10nm 增強型 Super Fin

● Rambo Cache

● HBM2 高帶寬顯存

以下是英特爾 Ponte Vecchio 芯片的 47 塊（Tiles）組成：

● 16 個 Xe HPC（內/外部）

● 8 個 Rambo Cache（內部）

● 2 個 Xe Base（內部）

● 11 個 EMIB（內部）

● 2 個 Xe Link（外部）

● 8 個 HBM（外部）

Ponte Vecchio GPU 使用了 8 個 HBM 8-Hi 堆棧，總共包含 11 個 EMIB 互連，完整封裝尺寸為 4843.75 m㎡。

設計中還提到了高密度 3D Forveos 封裝的 Meteor Lake CPU，可知其 bump pitch 的間距為 36u 。

【總結】Ponte Vecchio GPU 不是一個單獨的芯片，而是由 47 個不同工藝製程的小芯片“組合”得來。

遺憾的是，受英特爾多次跳票的影響，使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超級計算機項目也被迫推遲。

即便如此，英特爾還是透露了下一代 Rialto Bridge GPU 。可知作為 Ponte Vecchio GPU 的繼任者，其有望於 2023 年開始提供樣品。

gpu ponte 英特爾

赞 (0)

鯨探不是數藏發行平台？是支付寶的“興趣社交”核武器

上一篇 2022-08-23 09:50

研究發現腦電刺激能改善老年人的記憶力

下一篇 2022-08-23 10:02

熱點資訊

“蝙蝠俠”貝爾想加盟《星戰》只想演頭撞門的風暴兵

克里斯蒂安·貝爾還是想要加盟《星球大戰》，而且就想演一個頭撞到門的風暴兵。在接受好萊塢報道者採訪時，這位前蝙蝠俠男星透露他仍然想要前往“那個遙遠的宇宙”，而且他腦海里已有一個非常具…

2022-10-01
熱點資訊

三星為Galaxy S21系列帶來One UI 4：基於Android 12

三星在自家論壇上宣布，即將啟動Galaxy S21系列的One UI 4測試計劃。不過，三星並未說明何時會推出測試版本，唯一可以確定的是，三星One UI 4將基於Android …

2021-07-28
熱點資訊

研究：未婚與心力衰竭患者較高的死亡風險相關

根據在歐洲心臟病學會(ESC)的科學會議Heart Failure 2022上發表的一項研究，未婚的心力衰竭患者在管理他們的疾病方面似乎信心不足，並且比已婚的同行更受社會約束。這些…

2022-06-28
熱點資訊

“中國造”電動車組首次開進埃及

埃及當地時間7月3日上午，由中車四方股份公司研製的電動車組載着乘客從開羅市的阿德利·曼蘇爾車站駛出，標誌着中國企業承建的埃及齋月十日城鐵路通車試運行。這是“中國造”電動車組首次開進…

2022-07-05
熱點資訊

全球5G用戶量已超過4G iPhone在北美和西歐5G機型中佔主導地位

全球正在使用的5G智能手機的數量在1月份首次%ignore_a_1%了4G，蘋果的iPhone是幾個地區的主要驅動力。在一份新的研究報告中，Counterpoint Researc…

2022-03-17
熱點資訊

睡眠不足和高脂肪飲食將導致健康惡性循環

北京時間12月27日消息，據國外媒體報道，最新研究顯示，三分之一以上的美國居民睡眠時間不足，這將對他們的健康造成嚴重影響，同時，飲食習慣對於身體健康是一個重要、但未被充分認識的因…

2021-12-27
熱點資訊

三星公布新2.5D封裝技術，電氣工程專家認為仍存缺陷

上周四，韓國半導體巨頭三星宣布，其下一代2.5D封裝技術I-Cube4即將上市，該技術提升了邏輯器件和內存之間的通信效率，集成1顆邏輯芯片和4顆高帶寬內存（HBM）。另外，該技術還…

2021-05-11
熱點資訊

1GB視頻上傳僅需10秒三星聯合Verizon、高通實現711Mbps 5G上傳

在三星近日發布的新聞稿中，表示一直和 Verizon、高通兩家公司合作提高 5G 網絡的%ignore_a_1%速度。三家公司聯合表示在該領域實現了突破，在實驗室測試環境下利用 m…

2021-10-15
熱點資訊

微軟承認存在新型Print Spool LPE攻擊（CVE-2021-34481）

當微軟認為他們的PrintNightmare漏洞事件影響已經結束時，另一攻擊套路隨之出現。MSRC剛剛發布了一個公告（CVE-2021-34481）通知系統管理員，儘管最近已經為他…

2021-07-17
熱點資訊

理想ONE同胞兄弟L7首曝：1.5T四缸尺寸比L9略小

3月3日，理想汽車正式公布了全新車型“X01”的信息，據悉該車將於北京車展期間正式發布，產品被命名為L9。近日，有網友拍到了一張L9的路試圖，而更為重磅的是，其後方跟隨了另外一台理…

2022-03-04