發射全新架構“火箭”,英特爾兩年“登月”

本周四,英特爾架構日用長達近兩個半小時的時間介紹了其在架構創新以及相關新產品方面的進展。英特爾高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri說:“架構是硬件和軟件的‘鍊金術’。”

發射全新架構“火箭”,英特爾兩年“登月”

英特爾高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri

2016年,AMD發布全新CPU微架構ZEN,幫助其在桌面CPU市場幾年間迅速接近甚至超越英特爾。今天,英特爾發布了全新的CPU架構和兩個核心,將移動SoC中已廣泛應用的CPU大小核(BIG.LITTLE)架構率先引入桌面級CPU中。

英特爾在升級“看家”產品CPU的同時,也帶來了獨立GPU更詳細的信息。特別值得關注的是,英特爾首次展示了耗時近兩年,堪比登月難度創新后的產品Ponte Vecchio GPU,包含1000億個晶體管,這是英特爾迄今為止最高的計算密度產品,能提供業界最頂級的AI性能。

不止於此,英特爾還進一步介紹了全新的基礎設施處理器(IPU)。

從CPU到GPU再到IPU,每一個新的架構和產品都是其XPU架構戰略的體現,也用實際產品證明了芯片異構的時代,軟件優先的重要性。無論如何,英特爾全新的CPU值得消費者期待,而其GPU以及IPU,也將成為競爭對手重點關注的產品。

發射全新架構“火箭”,英特爾兩年“登月”

4年處理能力提升1000倍

AI、元宇宙、AR,都需要超高性能的處理器。每一位追求創新的客戶都給英特爾一個問題,到2025,英特爾能讓我們的工作負載處理能力有1000x(千倍級)的提升嗎?

“這個要求只給了我們4年時間,而1000倍可是摩爾定律的5次方。” Raja說,“為了在2025年滿足1000x(千倍級)提升的需求,我們要在每個技術領域,實現至少4倍左右的摩爾定律提升,這些領域包括製程工藝、封裝、內存和互連,架構是將它們與軟件結合起來的‘鍊金術’。這些技術的集合可以作為乘法因子,與4倍的提升相結合,就能提供處理繁重的工作負載所需的千倍提升,這同時例證了為何如今是成為架構師的大好時代。”

發射全新架構“火箭”,英特爾兩年“登月”

2019年,兩位圖靈獎得主 John L. Hennessy 和 David A. Patterson發表長報告展望,未來的十年將是計算機體系架構領域的“新的黃金十年”。

已經準備好先進製程(Intel7、Intel4、Intel3、Intel20A,以及外部代工廠),先進封裝技術(EMIB、Foveros),內存(傲騰)和互聯技術的英特爾,處理能力可以像火箭一樣躍升嗎?

發射全新架構“火箭”,英特爾兩年“登月”

這需要先看英特爾的看家本領——CPU。

要以大小核的方法,奪回CPU領先優勢

“我們的首要目標是,打造世界上極高能效的x86 CPU內核。與此同時大幅縮小芯片尺寸,以便多核工作負載可以根據需要,使用儘可能多的內核進行拓展。我們還希望提供更寬的頻率範圍,以滿足更高需求的工作負載。”英特爾院士,英特爾x86能效核的首席架構師Stephen Robinson介紹,

“基於全新的微架構,全新的CPU內核在多核性能方面實現了突破,首款產品是Alder Lake。”

發射全新架構“火箭”,英特爾兩年“登月”

Alder Lake是英特爾首個性能混合架構,採用Intel7製程,搭載兩款新一代x86內核以及智能英特爾硬件線程調度器。

先看能效核,也叫E-Core。與英特爾迄今為止最多產的CPU微架構Skylake相比,其可在相同功耗下提升40%的單線程性能,或者在提供同樣性能時,功耗僅為Skylake的40%不到。如果看吞吐量,與運行四個線程的兩個Skylake內核相比,四個能效核在性能提升80%的同時功耗更低,或者在提供相同吞吐量性能時,功耗降低80%。

發射全新架構“火箭”,英特爾兩年“登月”

發射全新架構“火箭”,英特爾兩年“登月”

實際上,英特爾是利用各種技術,在不耗費處理器功率的情況下對工作負載進行優先級排序,並通過每周期指令數(IPC)改進功能直接提高性能,具體的功能包括:

  • 擁有5000個條目的分支目標緩存區,實現更準確的分支預測

  • 64KB指令緩存,在不耗費內存子系統功率的情況下保存可用指令

  • 英特爾的首款按需指令長度解碼器,可生成預解碼信息

  • 英特爾的簇亂序執行解碼器,可在保持能效的同時,每周期解碼多達6條指令

  • 後端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度引退、256個亂序窗口入口和17個執行端口

  • 支持英特爾®控制流強制技術和英特爾®虛擬化技術重定向保護等功能

  • 實現了AVX指令集以及支持整數人工智能操作的新擴展

再看性能核,也叫P-Core,這是英特爾迄今為止性能最高的CPU內核,它是一個更寬、更深、更智能的架構,展現出更高的并行性,提高執行并行性,降低時延,提升通用性能。

發射全新架構“火箭”,英特爾兩年“登月”

更寬、更深、更智能的性能核架構具體的體現是:

  • 更寬:解碼器由4個增至6個,6µop 緩存增至8µop,分配由5路增至6路,執行端口由10個增至12個

  • 更深:更大的物理寄存器文件(physical register files),擁有512條目的重排序緩衝區

  • 更智能:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測帶寬

與第11代酷睿架構(Cypress Cove內核)相比,在相同頻率下,性能核在一系列工作負載上平均提升了約19%。

發射全新架構“火箭”,英特爾兩年“登月”

擁有AI硬件加速器是英特爾CPU獨有的功能,這一特性在性能核上進一步通過軟件結合硬件來提升。憑藉英特爾高級矩陣擴展(AMX)來執行矩陣乘法運算,AI加速可以提升約8倍(每個內核每周期可進行2048次int8運算)。AMX可是用過軟件的方法,由此就不難理解英特爾一直強調軟件優先的原因。

發射全新架構“火箭”,英特爾兩年“登月”

“能效核並不意味着性能就低,只是其優化的方向與性能核不同。”英特爾研究院副總裁、英特爾中國研究院院長宋繼強告訴雷鋒網。

擁有了不同的內核,就像是擁有了更多武器,能夠充分發揮武器的殺傷力才是高手稱霸的關鍵。所以,英特爾開發了獨特的硬件線程調度器,能夠從開始就動態、智能地分配工作負載,從而優化系統以在真實場景中實現更高的性能和效率。

“英特爾硬件線程調度器與其它調度器一個非常大的區別就是動態、智能地分配工作負載,在合適的時間把合適的線程分配給合適的內核,同時還與操作系統無縫配合。”宋繼強指出。

發射全新架構“火箭”,英特爾兩年“登月”

全新性能混合Alder Lake架構CPU由於採用了單一、高度可擴展的SoC架構,這就讓其可以支持從超便攜式筆記本,到發燒級,到商用台式機的所有客戶端設備。

發射全新架構“火箭”,英特爾兩年“登月”

全新的性能核微架構也會用於利潤豐厚的數據中心CPU市場,也就是下一代英特爾至強可擴展處理器,代號Sapphire Rapids,其核心是一個分區塊、模塊化的SoC架構,採用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,在保持單晶片CPU接口優勢的同時,具有顯著的可擴展性。

發射全新架構“火箭”,英特爾兩年“登月”

可見,AMD用Zen趕超英特爾,如今英特爾要用Alder Lake反超。這也讓我們更期待今年底將會出貨的搭載Alder Lake CPU的PC產品。同樣,英特爾捍衛其在服務器CPU市場的領導力,代號Sapphire Rapids的下一代至強可擴展處理器也非常重要。

發射全新架構“火箭”,英特爾兩年“登月”

發射全新架構“火箭”,英特爾兩年“登月”

再入獨立GPU市場,挑戰登月級難度

相比看家本領的CPU產品,英特爾過去兩次挑戰獨立GPU市場,都以失敗告終。再一次進入獨立GPU市場的英特爾面臨的是更大的挑戰。

“我們面臨的是將近持續十年之久的問題。英特爾在吞吐量計算密度和對高帶寬內存的支持方面都落後。這兩者都是 HPC和AI的基本指標,也是GPU架構的基石。”Raja給出了圖表展示英特爾與業界領先水平的差距。

發射全新架構“火箭”,英特爾兩年“登月”

發射全新架構“火箭”,英特爾兩年“登月”

Raja還同時說,“當2017年GPU架構開始為AI數據類型的矩陣處理添加特殊引擎時,問題變得更糟。我們真的很想儘快縮小這個差距,所以我們需要一個堪比登月難度的創新產品。”

發射全新架構“火箭”,英特爾兩年“登月”

今天英特爾架構日上,詳細介紹的全新的獨立顯卡微架構Xe HPG,採用新的Xe內核,聚焦計算、可編程、可擴展,並全面支持DirectX 12 Ultimate。基於全新獨立顯卡微架構Xe HPG的首款產品是Alchemist,Alchemist SoC能夠提供出色的可擴展性和計算效率,並擁有以下關鍵架構特徵:

  • 多達8個具有固定功能的渲染切片,專為DirectX 12 Ultimate設計

  • 全新Xe內核,擁有16個矢量引擎和16個矩陣引擎(被稱為XMX,即Xe Matrix eXtension)、高速緩存和共享內部顯存

  • 支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元

  • 通過架構、邏輯設計、電路設計、製程工藝技術和軟件優化,相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升1

  • 使用台積電的N6製程節點(通常叫做台積電6nm)上進行製造

與全新的CPU微架構一樣,英特爾全新的GPU微架構也採用了軟件優先設計的方法。

發射全新架構“火箭”,英特爾兩年“登月”

“英特爾很早就與開發者、API 和領先的遊戲引擎廠商展開合作,共同為遊戲發燒友設計英特爾新款獨立GPU。這款全新可擴展Xe HPG架構,採用了軟件優先的設計方法,從而為遊戲玩家和創作者帶來高性能表現並減少畫面卡頓。” 英特爾CEO 帕特·基辛格表示。

發射全新架構“火箭”,英特爾兩年“登月”

雷鋒網(公眾號:雷鋒網)了解到,英特爾已完成了內核顯卡驅動程序組件的重新架構,特別是內存管理器和編譯器,使計算密集型遊戲的吞吐量提高了15%(至多80%),遊戲加載時間縮短了25%。同樣能體現軟件優先的特性是XeSS。

XeSS與CPU中的AMX一樣可以進行AI加速,利用Alchemist的內置XMX AI加速,帶來了一種可實現高性能和高保真視覺的全新升頻技術,讓那些只能在低畫質設置或低分辨率下玩的遊戲也能在更高畫質設置和分辨率下順利運行。

發射全新架構“火箭”,英特爾兩年“登月”

從正在試產階段的Alchemist  SoC的演示視頻可以看到,包括真實遊戲展示,虛幻引擎5測試良好。想要用上英特爾全新的Alchemist GPU,最早一批要到2022年第一季度上市,錯過了聖誕季的消費熱潮,不知能否趕上春節。

除了確定性較高的Alchemist,英特爾還規劃了Battlemage、Celestial和Druid 的消費級獨立GPU產品,英特爾還為這一系列產品推出了全新的品牌名稱銳炫。

發射全新架構“火箭”,英特爾兩年“登月”

但最能展現英特爾在獨立、高性能GPU市場決心的產品還是基於Xe HPC微架構的Ponte Vecchio,這是英特爾迄今為止最複雜的SoC,包含1000億個晶體管,提供業界領先的浮點運算和計算密度,以加速人工智能、高性能計算和高級分析工作負載。

發射全新架構“火箭”,英特爾兩年“登月”

“不到兩年前,我分享了我們為Ponte Vecchio設定的目標。看到這樣非凡的芯片工程以及雄心勃勃的軟件計劃在我們的實驗室內成為現實,這對於我們來說是令人難以置信的時刻。對於我們來說,這已經不再是似乎不可能的登月難度的創新產品。”Raja同時也表示,

“整個項目尚未成功,我們還有很多工作要做。但是,我們迫不及待地希望大家加入我們的旅程,在明年初把這個架構帶給所有客戶。”

之所以說Ponte Vecchio的難度堪比登月,是因為要設計這樣一款產品難在從無到有,面對的是新的SOC架構、新的IP 架構、新的內存架構、新的I/O架構、新的封裝技術、新的供電技術、新的互連、新的信號完整性技術、新的可靠性方法、全新的軟件、以及新的驗證方法。

發射全新架構“火箭”,英特爾兩年“登月”

“保守地說,Ponte Vecchio是我在30年的芯片開發生涯中開發的最複雜的芯片。實際上,我甚至不確定把它稱為芯片是否準確,它是包含諸多芯片的集合。”英特爾Ponte Vecchio首席架構師Masooma Bhaiwala感嘆。

架構日上,Masooma Bhaiwala英特爾展示了早期的Ponte Vecchio芯片就已經顯示出領先的性能,在一個流行的AI基準測試上創造了推理和訓練吞吐量的行業紀錄。基於Ponte Vecchio的A0芯片已經實現了超過每秒45萬億次浮點運算的FP32吞吐量,超過5 TBps的持續內存結構帶寬以及超過 2 TBps的連接帶寬。

發射全新架構“火箭”,英特爾兩年“登月”

雷鋒網了解到,基礎單元是Ponte Vecchio的連接組織,它是基於Intel 7製程工藝的大型芯片,針對Foveros技術進行了優化。Xe 鏈路單元提供了GPU之間的連接,支持每單元8個鏈路,該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中。

發射全新架構“火箭”,英特爾兩年“登月”

異構時代的IPU

IPU(基礎設施處理器)是CPU和GPU之外,英特爾架構日的第三個重要產品。英特爾在不久前提出IPU的概念,這一產品的目標是使雲和通信服務提供商減少在中央處理器(CPU)方面的開銷。

英特爾數據平台事業部首席技術官Guido Appenzeller介紹,英特爾認識到單一產品無法滿足所有需求,因此對其IPU架構進行了更深入的研究,並推出了以下IPU家族的新成員。目前的IPU基本上使用兩類架構:一類是專用ASIC IPU;一類是基於FPGA的IPU。

發射全新架構“火箭”,英特爾兩年“登月”

基於FPGA的IPU能快速實施新協議,應對不斷變化的要求或新協議。例如,在這些FPGA上實現未公開的專有協議。專用ASIC IPU可以實現性能和效率的最大化。

“兩者實際上都不同於經典的SmartNIC,後者缺乏執行基礎設施控制面的能力。對於不同類型的基礎設施加速,沒有適用所有情況的方案。因此,英特爾將繼續投資於這兩類IPU以及SmartNIC。”Guido Appenzeller同時表示。

Mount Evans是英特爾的首個ASIC IPU。據悉,這是英特爾與一家一流的雲服務提供商共同設計和開發的,融合了多代FPGA SmartNIC的經驗。

發射全新架構“火箭”,英特爾兩年“登月”

“接下來將迎來兩款基FPGA的IPU新產品,分別面向雲(Oak Springs Canyon)和通信(Arrow Creek)市場。” Guido Appenzeller介紹,

Oaks Springs Canyon是基於FPGA的IPU,採用了英特爾的Agilex FPGA 和至強D片上系統。還採用了英特爾開放式FPGA開發堆棧(英特爾OFS),這是一個可擴展、開源軟硬件基礎設施堆棧,能夠滿足新興雲服務提供商對於部署100GB工作負載的需求。Oak Springs Canyon還包括一個加固的加密模塊,以線速性能保護所有基礎設施流量、存儲和網絡。

Arrow Creek是一個加速開發平台,基於Agilex FPGA和e810 100GB以太網控制器。它源自英特爾PAC-N3000,後者目前已經被全球各地的頂級通信服務提供商所採用,Arrow Creek將幫助電信運營商提供靈活的加速工作負載。

成就異構芯片時代——oneAPI

“在軟件領域,要開啟堪比登月難度的創新計劃。我們需要一個編程框架,讓軟件開發者在編程時無需考慮不同的CPU和加速器組合,很多人認為這是不可能的任務,我們創造了oneAPI,讓開發者能夠擺脫專有語言和編程模型。”Raja說,

“oneAPI行業計劃提供了一個開放、基於標準、跨架構、跨矢量的統一軟件堆棧。這個行業規範的第一個版本已於去年9月發布,其中規定了一個通用硬件抽象層、數據并行編程語言以及全面的高性能函數庫,涉及數學、深度學習、數據分析和視頻處理領域。

發射全新架構“火箭”,英特爾兩年“登月”

目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。oneAPI工具包擁有超過20萬次單獨安裝,市場上部署的300多個應用程序採用了 oneAPI的統一編程模型。

發射全新架構“火箭”,英特爾兩年“登月”

據悉,臨時的oneAPI 1.1版已經在5月發布,增加了面向深度學習工作負載和高級光線追蹤函數庫的全新圖形接口。預計oneAPI1.1正式版將在今年末之前完成。

寫在最後

從CPU到GPU再到IPU,從微架構到封裝、存儲、互聯再到軟件,從六大技術支柱到異構再到軟件優先。英特爾正在用全新的產品組合,技術路線和策略面對AI和5G時代的競爭。

接下來的市場競爭格局的變化,難以準確預測。但英特爾有勇氣說出自己在技術上的巨大挑戰,以及宣布IDM 2.0,都釋放出積極的信號,一個更加開放的英特爾正在積極擁抱新的市場和競爭。

(0)
上一篇 2021-08-20 23:20
下一篇 2021-08-20 23:53

相关推荐