英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

在 2021 年英特爾架構日上,英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 同多位英特爾架構師一起,全面介紹了在 CPU、GPU 及 IPU 架構方面的重大改變與創新。今年以來,英特爾公布了相當多的新計劃,包括 IDM 2.0 戰略、全新製程節點方案、獨顯等等,如今,我們終於能從一系列新品上直觀地看見這些新計劃方案的組合。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

首先,英特爾首個性能混合架構 Alder Lake 將集成新公布的兩款全新 x86 內核架構——能效核與性能核,並且是基於英特爾新命名技術節點 Intel 7 的首款產品。它還採用了新的智能英特爾硬件線程調度器來實現兩款 x86 的無縫協同。

面向數據中心,英特爾公布下一代英特爾至強可擴展處理器 Sapphire Rapids, 這被稱作代表了十多年來行業最大的數據中心平台進步。

另外,英特爾也講解了其備受矚目的全新獨立遊戲 GPU 微架構 Xe HPG 微架構,基於該微架構、採用台積電N6 節點製造的產品 Alchemist 系列 SoC 將於明年第一季度上市,這將是英特爾第一款基於台積電 N6 工藝的 GPU。

還有基於 Xe HPC 微架構的數據中心 GPU 架構 Ponte Vecchio, 它具備英特爾迄今為止最高的計算密度,例如 A0 芯片可提供超過 45TFLOPS 的 FP32 吞吐量、超過 5TBps 的持續內存結構帶寬和超過 2TBps 的連接帶寬。

最後,圍繞全新基礎設施處理器 (IPU), 英特爾展示了其首款專用 ASIC IPU Mount Evans 和基於 FPGA 的 IPU 參考平台 Oak Springs Canyon。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 認為,架構是硬件和軟件的’鍊金術’,今年公布的這些新突破展示了架構將如何滿足對於更高計算性能的迫切需求。

發布的顯卡新品中,我們看到英特爾基本採用台積電 N6 和 N5 工藝技術進行代工生產,這正是今年 3 月公布的英特爾 IDM 2.0 戰略的直接體現。

英特爾公司企業規劃事業部高級副總裁 Stuart Pann 稱,目前英特爾 20% 的產品是交由外部代工廠生產,英特爾是台積電的頂級客戶之一。目前,為英特爾獨立顯卡產品採用代工廠的製程節點,是恰當之選。

他透露說,未來幾年,外部代工生產的芯片單元會在英特爾的模塊化產品中扮演更重要的角色,包括採用先進製程節點的核心計算功能,以支持客戶端、數據中心和其他領域的新興工作負載。

01.

兩款全新 x86 內核

性能核 AI 加速提升約 8 倍

英特爾首先介紹了能效核和性能核,顧名思義,前者主打高能效,後者主打高性能。

1、 能效核:能耗不到 Skylake 的 40%

能效核曾用代號 “Gracemont”, 是一個高度可擴展的 x86 微架構,旨在提高吞吐量效率並提供可擴展多線程性能,能滿足客戶從低功耗移動應用到多核微服務的全方位計算需求。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

藉助多種技術進步,能效核可以在不耗費處理器功率的情況下對工作負載進行優先級排序,並通過每周期指令數 (IPC) 改進功能直接提高性能。

與英特爾迄今最多產的 CPU 微架構 Skylake 相比,在提供同樣單線程性能時,能效核的功耗不到 Skylake 的 40%。 與運行 4 個線程的兩個 Skylake 內核相比 ,4 個能效核在吞吐量性能提升 80% 的同時,功耗更低。

2、 性能核:英特爾迄今性能最高的 CPU 內核

性能核曾用代號 “Golden Cove”, 是英特爾迄今性能最高的 CPU 內核,並且在 CPU 架構性能方面實現階梯式提升,展現出更高的并行性和執行并行性,還減少時延,幫助支持大數據集和大型代碼體積的應用程序。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

它擁有更寬、更深、更智能的架構:解碼器由 4 個增至 6 個 ,6 μ op 緩存增至 8 μ op, 分配由 5 路增至 6 路,執行端口由 10 個增至 12 個;物理寄存器文件更大,擁有 512 條目的重排序緩衝區;提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測帶寬。

與第 11 代酷睿架構 (Cypress Cove 內核)相比,相同頻率下,性能核在一系列工作負載上平均提升了約 19%。 此外,性能核搭載了新的英特爾高級矩陣擴展 (AMX) 來執行矩陣乘法運算,可將 AI 加速提升約 8 倍,用於學習推理和訓練。這是為軟件易用性而設計,利用了 x86 編程模型。

02.

硬件線程調度器:讓兩款 x86 核無縫協作

為了確保性能核、能效核與操作系統無縫協作,英特爾開發了一種改進的調度技術,即英特爾硬件線程調度器。

它具有動態性和自適應性,會根據實時的計算需求,動態、智能地調整調度決策,從而優化系統以在真實場景中實現更高的性能和效率。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

硬件線程調度器直接內置於硬件中,可提供對內核狀態和線程指令混合比的低級遙測,讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上,並且更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測,從而幫助操作系統做出更智能的調度決策。

此外,硬件線程調度器通過與微軟合作,優化自身在 Windows 11 上的極佳性能;並擴展 PowerThrottling API, 使開發人員能為其線程明確指定服務質量屬性;還應用了全新 EcoQoS 分類,該分類可讓調度程序獲悉線程是否更傾向於能效(此類線程會被調度到能效核)。

03.

首個混合架構 Alder Lake: 採用 Intel 7 製程,支持從筆記本到台式機

英特爾 SoC 客戶端架構 Alder Lake 重構了多核架構,基於 Intel 7 製程工藝打造,是英特爾首個搭載全新英特爾硬件線程調度器的性能混合架構。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

它採用了單一、高度可擴展的 SoC 架構,首次集成了能效核和性能核,支持最新內存和最快 I/O, 功率範圍從 9W 到 125W, 適用於從超便攜式筆記本到發燒級、商用台式機的所有客戶端設備,基於 Alder Lake 的產品將在今年開始出貨。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Alder Lake 提供三類產品設計形態:

(1) 高性能、雙芯片、插座式的台式機處理器,具有領先性能和能效,擁有 8 個性能核 、8 個能效核,支持高規格的內存和 I/O。

(2) 高性能筆記本處理器,擁有 6 個性能核 、8 個能效核,採用 BGA 封裝,加入圖像單元,採用更大的 Xe 顯卡和 Thunderbolt 4 連接。

(3) 輕薄、低功耗的筆記本處理器,擁有 2 個性能核 、8 個效能核,採用高密度的封裝,配置優化的 I/O 和電能傳輸。

要構建如此高度可擴展架構,需在不影響功率的情況下滿足計算和 I/O 代理對帶寬的需求。

英特爾也展示了台式機處理器的 I/O 信息,總共有最多 8 個性能核 、8 個效能核 、24 個線程和 30MB non-inclusive LL 緩存。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

英特爾設計了三種獨立的內部總線,每一種都採用基於需求的實時啟髮式后處理方式:

(1) 計算內部總線可支持高達 1000GBps, 即每個內核或每集群 100GBps, 通過最後一級緩存將內核和顯卡連接到內存:具有高動態頻率範圍,並且能夠動態選擇數據路徑,根據實際總線結構負載而進行時延和帶寬優化;根據利用率動態調整最後一級緩存策略,也就是“包含”或“不包含”。

(2)I/O 內部總線支持可高達 64GBps, 連接不同類型的 I/O 和內部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內部總線速度來匹配所需的數據傳輸量。

(3) 內存結構可提供高達 204GBps 的數據,並動態擴展其總線寬度和速度,以支持高帶寬、低時延或低功耗的多個操作點。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

04.

基於 Intel 7 節點,性能封頂的數據中心 SoC

Sapphire Rapids 處理器基於 Intel 7 製程工藝技術,採用英特爾性能核與全新加速器引擎,被稱作樹立了下一代數據中心處理器的標準。

其核心是一個分區塊、模塊化的 SoC 架構,採用英特爾的嵌入式多芯片互連橋接 (EMIB) 封裝技術和先進網格架構,具有顯着的可擴展性,同時保持單晶片 CPU 接口優勢。

該處理器提供了一個單一、平衡的統一內存訪問架構,每個線程均可完全訪問緩存、內存和 I/O 等所有單元上的全部資源,由此實現整個 SoC 具有一致的低時延和高橫向帶寬。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Sapphire Rapids 提供多種數據中心相關加速器,包括新的指令集架構和集成 IP:

(1) 英特爾加速器接口架構指令集 (AIA): 支持對加速器和設備的有效調度、同步和信號傳遞。

(2) 英特爾高級矩陣擴展 (AMX): 可為深度學習算法核心的 Tensor 處理提供大幅加速。其可以在每個周期內進行 2000 次 INT8 運算和 1000 次 BFP16 運算,大幅提升計算能力。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

使用早期的 Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾 AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了 7 倍以上,顯着提升 AI 工作負載中的訓練和推理性能。

(3) 英特爾數據流加速器 (DSA): 旨在卸載最常見的數據移動任務,改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,並可以在 CPU、 內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

這些架構上的改進使 Sapphire Rapids 能為雲、數據中心、網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。

05.

獨立遊戲顯卡微架構 Xe HPG 與其首款 SoC

Xe HPG 是一款全新的獨立顯卡微架構,專為遊戲和創作工作負載提供發燒友級別的性能。

基於 Xe HPG 架構的英特爾客戶端顯卡路線圖包括 Alchemist( 此前稱之為 DG2)、Battlemage、Celestial 和 Druid 系列 SoC。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Alchemist 系列 SoC 基於 Xe HPG 微架構,採用台積電 N6 工藝,首批產品將於 2022 年第一季度上市,並採用新品牌名英特爾銳炫 (Intel Arc)。

這款消費級 GPU 預計將與採用台積電 N7 工藝的AMD Navi 2x 顯卡和採用三星 8LPP 工藝的英偉達 Ampere GA10x 顯卡進行較量。

基於 Xe HPG 微架構的 Alchemist SoC 通過架構、邏輯設計、電路設計、製程工藝技術和軟件優化,相比 Xe LP 微架構實現 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升。

此外 ,Alchemist SoC 還擁有多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計;並支持 DirectX Raytracing(DXR) 和 Vulkan Ray Tracing 的新光線追蹤單元。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

聚焦到微架構 Xe HPG, 它採用全新 Xe 內核,聚焦計算、可編程、可擴展,全面支持 DirectX 12 Ultimate。

Xe 內核中的矩陣引擎 (Xe Matrix eXtensions,XMX) 能夠加速 AI 工作負載,比如 XeSS, 是一項全新升頻技術 (upscaling technology), 可以實現高性能、高保真遊戲體驗。

XeSS 能讓那些原本只能在低畫質設置或低分辨率下玩的遊戲,也能在更高畫質設置和分辨率下順利運行。該技術利用 XMX AI 加速,用深度學習來合成非常接近原生高分辨率渲染質量的圖像,可提供高性能和高畫質,同時性能提升高達 2 倍。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

XeSS 憑藉 DP4a 指令,在包括集成顯卡在內的各種硬件上提供基於 AI 的超級採樣。多家早期的遊戲開發商已開始使用 XeSS, 本月將向獨立軟件供應商 (ISV) 提供 XMX 初始版本的 SDK,DP4a 版本將於今年晚些時候推出。

英特爾顯卡設計的核心是軟件優先。英特爾正與開發人員密切合作進行 Xe 微架構的設計,力求與行業標準保持一致;通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計,英特爾的第一款高性能遊戲顯卡將性能和質量放在首位。

英特爾已完成了內核顯卡驅動程序組件的重新架構,特別是內存管理器和編譯器,從而將計算密集型遊戲的吞吐量提高了 15%( 至多 80%), 遊戲加載時間縮短了 25%。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

06.

1000 億晶體管!

英特爾最複雜 SoC 與 Xe HPC

Ponte Vecchio 是英特爾迄今最複雜的 SoC, 包含 1000 億個晶體管,提供領先的浮點運算和計算密度,以加速 AI、HPC 和高級分析工作負載。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

這款 SoC 也是其踐行 IDM 2.0 戰略的絕佳示例,它基於 Xe HPC 微架構,採用多種先進的半導體製程工藝、英特爾變革性的 EMIB 技術以及 Foveros 3D 封裝技術。

Ponte Vecchio 已走下生產線進行上電驗證,並已開始向客戶提供限量樣品 。Ponte Vecchio 預計將於 2022 年面向 HPC 和 AI 市場發布。

Xe HPC 微架構的 IP 模塊信息被公布,包括每個 Xe 核的 8 個矢量和矩陣引擎 (XMX)、 切片和堆棧信息,以及包括計算、基礎和 Xe Link 單元的處理節點的單元信息。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

英特爾展示了早期的 Ponte Vecchio 芯片就已經顯示出領先的性能,在一個流行的 AI 基準測試上創造了推理和訓練吞吐量的行業紀錄。

其 A0 芯片已經實現了超過高於 45TFLOPS( 每秒 45 萬億次浮點運算)的 FP32 吞吐量,超過 5TBps 的持續內存結構帶寬及超過 2TBps 的連接帶寬。

同時,英特爾分享了一段演示視頻,展示了 ResNet 推理性能超過每秒 43000 張圖像和超過每秒 3400 張圖像的 ResNet 訓練,這兩項性能都有望實現行業領先。

從具體設計來看 ,Ponte Vecchio 由多個複雜的單元設計組成,然後通過 EMIB 單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成於 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆棧的擴展。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

其中,計算單元是一個密集的多個 Xe 內核,是 Ponte Vecchio 的核心。該單元基於台積電先進的 N5 製程工藝技術,一塊單元有 8 個 Xe 內核,總共有 4MB 一級緩存,是提供高效計算的關鍵。

該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊。英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

基礎單元是 Ponte Vecchio 的連接組織,基於 Intel 7 製程工藝,針對 Foveros 技術進行了優化。

它是所有複雜的 I/O 和高帶寬組件與 SoC 基礎設施 ——PCIe Gen5、HBM2e 內存、連接不同單元 MDFI 鏈路和 EMIB 橋接。該單元採用高 2D 互連的超高帶寬 3D 連接時延很低,使其成為一台無限連接的機器。英特爾技術開發團隊致力於滿足帶寬、凸點間距和信號完整性方面的要求。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Xe 鏈路單元採用台積電 N7 工藝,提供了 GPU 之間的連接,支持每單元 8 個 Xe 鏈路,這對 HPC 和 AI 計算的擴展至關重要,旨在實現支持高達 90G 的更高速 SerDes, 該單元已被添加到 Aurora 百億億次級超級計算機的擴展解決方案中。

如 Xe 架構一樣 ,Ponte Vecchio 將由英特爾統一軟件堆棧 oneAPI 支持。

07.

首款專用 ASIC IPU 和 IPU 參考平台

在傳統服務器架構中,一切任務都可以直接跑在 CPU 上。而在雲端服務器架構中,如果所有計算任務都由 CPU 來執行,那它就有些力不從心了。

一種可編程的網絡設備正為雲和通信服務提供商減少在 CPU 方面的開銷,使其充分釋放性能價值,這個設備被稱為基礎設施處理器 (IPU)。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

具體而言,英特爾基於 IPU 架構有三大優勢:一是基礎設施功能和客戶工作負載的強分離,使客戶能夠完全控制 CPU; 二是雲運營商可將基礎設施任務卸載到 IPU 上,更大化實現 CPU 利用率和收益;三是 IPU 可以管理存儲流量,減少時延,同時通過無磁盤服務器架構有效利用存儲容量。藉助 IPU, 客戶可通過一個安全、可編程、穩定的解決方案更好地利用資源,平衡處理與存儲。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

應對多樣化數據中心的複雜性,英特爾推出了以下 IPU 家族的新成員:英特爾首款專用 ASIC IPU Mount Evans, 以及全新的基於 FPGA 的 IPU 參考平台 Oak Springs Canyon。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Mount Evans 是英特爾與一家一流雲服務提供商共同設計和開發的,它融合了英特爾多代 FPGA SmartNIC 的經驗,超大規模就緒,提供高性能網絡和存儲虛擬化卸載,同時保持高度控制。

該 IPU 提供了業界一流的可編程數據包處理引擎,支持防火牆和虛擬路由等用例。它還使用擴展自英特爾傲騰技術、硬件加速的 NVMe 存儲接口,並採用英特爾高性能 Quick Assist 技術,部署高級加密和壓縮加速。

在軟件方面 ,Mount Evans 可使用現有普遍部署的 DPDK、SPDK 等軟件環境進行編程,並能採用英特爾 Barefoot Switch 部門開創的 P4 編程語言來配置管線。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

Oak Springs Canyon 是一個 IPU 參考平台,基於英特爾至強 D 處理器和英特爾 Agilex FPGA 構建:

(1) 卸載 Open Virtual Switch(OVS) 等網絡虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能,並提供硬化的加密模塊,提供更安全、高速的 2x 100Gb 以太網網絡接口。

(2) 讓合作夥伴和客戶能用英特爾開放式 FPGA 開發堆棧(英特爾 OFS) 定製其解決方案,這是一款可擴展、開源軟件和硬件基礎設施。

(3) 使用現有普遍部署的軟件環境進行編程,包括已在 x86 上優化的 DPDK 和 SPDK。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

英特爾 N6000 加速開發平台 Arrow Creek 是專為搭載至強服務器設計的 SmartNIC。

它內置英特爾 Agilex FPGA 和用於高性能 100GB 網絡加速的英特爾以太網 800 系列控制器,支持多種基礎設施工作負載,使通信服務提供商 (CoSP) 能夠提供靈活的加速工作負載,如 Juniper Contrail、OVS 和 SRv6。

08.

oneAPI 工具包:超過 20 萬次單獨安裝

英特爾 oneAPI 是一個開放、規範、跨架構和跨廠商的統一軟件棧,提供了跨架構的兼容性,讓開發者能夠擺脫專有語言和編程模型的束縛。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

目前 ,NVIDIA GPU、AMD GPU、Arm CPU 均有 Data Parallel C ++ (DPC ++)和 oneAPI 庫。

oneAPI 正在被獨立軟件提供商、操作系統供應商、終端用戶和學術界廣泛採用。行業領導者正在協助發展該規範,以支持更多的用例和架構。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

同時,英特爾還提供了商業產品,包括基本的 oneAPI 基礎工具包,它在規範語言和庫之外增加了編譯器、分析器、調試器和移植工具。

英特爾 oneAPI 工具包擁有超過 20 萬次單獨安裝,市場上部署的 300 多個應用程序採用了 oneAPI 統一編程模型,超過 80 個 HPC 和 AI 應用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構上運行。

另外 ,oneAPI 工具包 5 月發布的 1.1 版臨時規範為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預計將在年底完成。

09.

結語:以架構創新應對千倍算力挑戰

總體來看,英特爾在此次架構日活動中推出兩大 x86 CPU 內核、兩款獨立 GPU、 兩大數據中心 SoC、IPU 新品和首款客戶端多核性能混合架構,並展示了 AMX、XeSS、 硬件線程調度器等多項融入產品特性的技術創新。

這些創新的架構與平台,均是為了更好地迎接越來越龐大的計算需求所帶來的挑戰。英特爾預計,到 2025 年算力需求將是 1000 倍級的提升,而四年內增加 1000 倍相當於摩爾定律的 5 次方。

英特爾架構日重磅:甩出 11 大芯片硬科技,推千億晶體管 SoC

(0)
上一篇 2021-08-20 11:20
下一篇 2021-08-20 11:21

相关推荐