英特爾SPR處理器配備64GB HBM2e、Ponte Vecchio擁有408MB L2緩存

在一年一度的超算大會上,高性能計算行業的許多參與者都在積極討論硬件、安裝、以及設計等方面的最新進展。期間,芯片巨頭英特爾也展示了自家的硬件,並披露了有關下一代 Aurora Exascale 超算的諸多細節。起初,Aurora 計劃採用英特爾的 10nm 至強(Xeon)融核(Phi)平台,但隨着技術的飛速發展,後續該項目也經歷了多次推倒重來。

1.jpg

幾年前最終敲定的方案,為 Aurora 選用了英特爾 Sapphire Rapids 處理器,特點是配備 HBM2e 高帶寬緩存。以及 Ponte Vecchio 架構的 Xe-HPC GPU 加速器,可擴展數百 PetaFLOP 到 ExaFLOP 級別的算力。

早些時候,英特爾新任 CEO 帕特·基辛格透露,Ponte Vecchio 加速器實現了性能的翻番,可讓建成后的 Aurora 成為一台“2+ EF”級別的超級計算機。

該公司預計將在 2022 年之前交付機器的其餘部分,並於第一季度增加主流用戶的硬件生產,以便在上半年有更廣泛的發布。

2.jpg

處理器方面,Aurora 為每個單元都配備了兩塊 Sapphire Rapids CPU(簡稱 SPR)。其具有四個計算塊、DDR5、PCIe 5.0、CXL 1.1(而不是 CXL.mem),並大量借用 EMIB 技術來實現連接。

至於自帶的高帶寬內存(HBM),可知英特爾為該系列 SPR 處理器選用了 8-Hi 堆棧,以提供高達 64GB 的 HBM2e 內存。(據說英特爾打算使用四個 16GB HBM2e 堆棧來組成 64GB 內存)

考慮到英特爾與美光之間的特殊關係,我們發現 Micron HBM2e 的物理尺寸,正巧與 Intel 材料中給出的標示一致(而不是三星或 SK 海力士)。

3.png

當前美光提供了兩種帶有硬件 ECC 的 16GB HBM2e 產品,一種為每引腳 2.8 Gbps(每堆棧 358 GB/s)、另一種為每引腳 3.2 Gbps(每堆棧 410 GB/s)。

取決於英特爾使用的版本,其峰值總帶寬可介於 1.432 ~ 1.64 TB/s 之間。不過 SPR HBM 版本還會額外使用四個 Tile,並將每個 HBM 堆棧連接到一個小芯片。

由圖可知,儘管 Intel 表示 SPR+HBM 版本與普通 SPR SKU 共享插槽,但明顯還是存在不兼容的地方。這也能是一個實例,即 Aurora 超算上使用了專門的調整設計。

5.jpg

至於 Ponte Vecchio(Xe HPC 2-Tile / PVC),英特爾披露單個 Aurora 服務器里的每兩塊 SPR 處理器,將搭配六塊 PVC 加速器。

每個加速器都將使用內置的新 Xe-Link 全拓撲互連協議,儘管全連接模式下支持 8 路,但 Aurora 還是相對節制了一下。

儘管英特爾尚未披露 PVC 是如何與 SPR 處理器連接的,但至少 CPU / GPU 之間採用了統一內存架構設計。

6.jpg

英特爾補充道,每個 Ponte Vecchio 雙棧部署將具有總共 64 MB 的 L1 緩存和 408 MB 的 L2 緩存(每個堆棧具有 204 MB L2),並由 HBM2e 提供支持。

作為比較,英偉達 A100 方案具有 40MB L2 緩存、AMD Navi 21 配備了 128MB 無限緩存(Infinity Cache / 有效 L3)。

至於 AMD 為 Frontier 超算提供的 CDNA2 MI250X 加速卡,則配備了每堆棧 8MB L2 緩存(總共 16MB)。

7.png

(圖 via AnandTech)

無論採用何種方式進行切片,英特爾都在努力為 PVC 提供正確的緩存層次結構。由圖表的 4 個 HBM2e 芯片設計來看,每個 PVC 雙堆棧或具有高達 128GB 的 HBM2e 內存。

更重要的是,我們還正式獲悉 Aurora 將用到多少塊 Ponte Vecchio GPU 加速卡和 Sapphire Rapids(+HBM)處理器。

早在 2019 年 11 月,當 Aurora 還僅規劃了 1 EF 算力時,就有基於 200 個機架布局的猜想 —— 簡單換算是 5000 顆 CPU + 15000 塊 GPU 加速卡,且每個 PVC 大約 66.6 TF 性能。

8.jpg

當時英特爾在早期芯片上展示了每張卡 40 TF 的性能,而 Aurora 2 EF 的官方參數則是 54000+ GPU / 18000+ CPU,意味每個 PVC 僅 37 TeraFlops(完全未將 CPU 性能算進去的話)。

至於 PVC 的功率,可參考額定功率為 60 MW 的 FP64 Vector(2 ExaFlops),那樣系統為每張卡分配的功率或為 1053 W 。若 Frontier 與 Aurora 的開銷類似,預計每個 PVC 的功率在 615 W。

最終 37 TF 的 PVC 功率為 615 W,而 MI250X 的 47.9 FP 功率僅為 560 W 。不過這裡並未深入每張卡的原始性能,及其在特定用例中的特定功能

(0)
上一篇 2021-11-16 12:22
下一篇 2021-11-16 12:23

相关推荐