蘋果M1 Ultra解密：業內首個GPU裸片集成，如何實現？

這顆採用2.5D封裝的芯片十分符合其“Ultra”的名頭：通過硅中介層將兩個M1
Max裸片集成在一起，帶來了驚人的2.5TB/秒的帶寬。但戲肉卻在於，M1
Ultra首次實現了兩顆GPU裸片的集成。這是過去的幾年來，AMD、英偉達、英特爾都宣稱要做，卻至今未能做到的成就。

憑藉這一突破，蘋果終於如願以償地在GPU領域對英偉達構成了挑戰。據蘋果所說，M1 Ultra的GPU性能超過了英偉達的GeForce RTX 3090，後者是目前市面上速度最快的GPU。

踏入自研芯片領域不過幾年的蘋果，究竟是如何做到業內首個GPU裸片集成的？而這一技術的實現，又將為巨頭爭霸的GPU市場，帶來什麼樣的變局？

圖源：蘋果

AMD、英偉達紛紛折戟 GPU裸片集成難在哪？

自MCM（Multi Chip Module，多芯片模組）技術誕生以來，像搭建樂高一樣，在單一芯片中實現不同技術節點、不同功能的裸片的集成堆疊，成為了摩爾定律之外，半導體技術發展的另一路徑，其本質在於將多個裸芯片和其它元器件組裝在同一塊多層互連基板上。

隨着台積電、三星、英特爾的2.5D/3D封裝逐漸成熟、商業化，在高端處理器領域，單顆芯片中CPU與Memory、GPU與memory的裸片集成，已不再是新鮮事。然而，兩顆GPU裸片的集成，在蘋果M1 Ultra發布之前，只存在於英偉達、AMD、英特爾的PPT中。

2017年，英偉達發表論文詳細解釋了一種名為可組合封裝GPU（Composable On-Package Architecture GPU，COPA GPU）的架構，核心在於將多個GPU模塊和內存系統模塊集成。同年，AMD對外展示了由四個GPU裸片集成的MCM設計，宣稱其性能將比當時最大的單片GPU的性能高45.5%。

COPA GPU；來源：英偉達

然而，直到後來者英特爾在今年年初提出了一種GPU裸片集成解決方案，英偉達和AMD的多裸片集成GPU仍未問世。當然，AMD、英偉達的Instinct MI200系列和Hopper系列據稱均有望在今年年底前姍姍來遲，但顯然，拖延症讓他們在“業內首個”上輸給了蘋果。

這種“拖延症”背後的無奈，是市場和技術兩個方面的。廈門雲天董事長於大全教授對筆者表示，過去對處理器的要求不那麼高，一顆GPU裸片就夠了，兩顆集成的成本過高。這也與此前一些業內觀點一致。有評論甚至認為，對GPU需求最大的遊戲領域，這樣的設計並無價值。

2020年初，時任AMD Radeon 技術事業部工程研發高級副總裁的David Wang在接受外媒採訪時就表示，多裸片集成的GPU幾乎不可能出現在2021年發布的Navi系列產品中，“我們正在研究MCM架構，”他說，“但我們尚未得出結論，這是一種可以應用於傳統遊戲GPU的架構。”

市場未成氣候外，技術難點則是GPU裸片集成的最大痛點。據於大全介紹，與CPU+Memory或GPU+Memory的裸片集成相比，GPU+GPU的裸片集成最大的難點在於線路更細更密，就需要更多的接口（I/O），為此，就需要將用於引出裸片信號的凸點間距縮小到50/40um規格以下。

紅框標註為凸點；圖源：英特爾

後來者蘋果彎道超車台積電無凸點技術幫了大忙？

從目前業內最前沿技術來看，凸點間距縮小到20um以下已成為2.5D/3D封裝的一大門檻，英特爾、台積電均已將此作為先進封裝的研發重點，例如英特爾的Foveros就將凸點間距縮小到10um，而台積電的想法更加跳躍，提出了“無凸點”互連方法SoIC，而這或許正是幫助蘋果彎道超車的利器。

從C4凸點到無凸點；圖源：台積電

根據台積電此前介紹，SoIC是對前道芯片堆疊技術的統稱，主要特徵是不再使用后道集成所用的凸點技術，轉而直接將裸片堆疊到一起。這種方法除了沒有“凸點間距”這一緊箍咒外，還能大大降低熱阻，不過缺點是必須在芯片最開始設計時就要一起被確定，技術要求自然更高。

據於大全介紹，蘋果很早就開始與台積電共同研究無凸點連接方法，因此其也推測，正是這種技術，幫助蘋果M1 Ultra實現了GPU裸片集成。“（裸片與裸片間互聯）最終的解決方案就是無凸點，就是上下裸片之間銅對銅、介質層對介質層的這種鍵合。”於大全說。

這種推論是有理由成立的。雖然蘋果在通稿中僅透露使用了在2.5D封裝常用的硅中介層，但結合蘋果官方給出的宣傳視頻和動畫模型來看，似乎使用了某種小型Si橋，在生產中實際上與英特爾的EMIB或AMD的Elevated Fanout Bridge （EFB）相似，兩者均無凸點設計。

除此之外，蘋果是否為其GPU裸片集成設計了新的接口IP也讓人浮想。這一點在蘋果的新聞通稿中未置一詞，但從技術實現上來看，接口IP的重要性幾乎僅次於微凸點和TSV技術。於大全也表示，接口I/O變多，必須要採用新的解決方案。這也是英偉達、AMD此前的重要發力點。

AMD於2020年初宣布，將Infinity Fabric總線互聯技術升級至Infinity Architecture，除了支持CPU-CPU集成外，還支持最多8個GPU芯片的連接以及CPU-GPU集成。同時表示，其新一代El Capitan超級計算機將搭載Infinity Architecture，Genoa EPYC基於Zen 4架構，1個CPU與4個GPU裸片集成。

英偉達早在2014年即推出了NVLINK，實現了芯片層級的GPU的高速互聯，2016年，發布了搭載NVLINK的第一款產品P100，此後不斷進行更新換代，並在NVLINK的基礎上推出了NVIDIA NVSwitch，可在單個服務器節點中支持8-16個全互聯的GPU，實現更高速度的通信。

需要指出的是，在這一層面上，蘋果方面的進展目前只能停留在猜測階段，但蘋果從來不會在技術不成熟的時候就推出產品，可以試圖推斷，蘋果雖然並未在新聞稿中提到接口IP，但並不代表其在此方面並無突破，更大的可能是其對關鍵技術仍然有所保留。

寫在最後

無論如何，M1 Ultra的推出，除了再次拔高外界對蘋果芯片能力的預期之外，還將GPU能力的擴展真正與先進封裝綁定了起來，雖然GPU進入多裸片集成時代是早就被預測的，但被產品搭載進入商業化量產是完全不同的概念，且實現這一目標的是這一市場的新入者蘋果，就更加耐人尋味。

這或許將意味着，在GPU領域，先進封裝有望成為X因素，打破當前英特爾、AMD、英特爾三強爭霸的格局，而掌握最高端先進封裝技術的台積電亦或是英特爾，將擁有更大的話語權。（校對/隱德萊希）