三巨頭間的3nm/2nm“大亂斗”

幾家芯片製造商和無晶圓廠設計公司正在芯片工藝製程上互相競爭，開發 3nm和2nm的下一個邏輯節點工藝與芯片，但將這些技術投入批量生產既昂貴又困難。巨頭之間的競爭提出新的問題，這些新節點投入量產究竟需要多長時間，為什麼需要這些新的節點工藝。

遷移到下一個節點確實可以提升性能並減少功耗和面積（PPA），但這已不再是實現PPA的唯一方法。實際上，縮小特性對PPA的好處可能不如最小化系統間的數據移動多。由於設備是為特定應用而設計的，因此需要考慮的因素有許多，例如不同類型的高級封裝、硬件和軟件更緊密集成以及處理不同數據類型和功能的混合處理元件。

隨着越來越多的設備連接在一起，越來越多可用程序的出現，我們看到數據呈指數級增長，還看到了完全不同的工作負載，隨着數據和不同使用模型的不斷發展，可以預計未來的工作負載會有更多變化。英特爾副總裁設計支持部總經理加里·巴頓（Gary Patton）在SEMI最近召開的先進半導體製造大會的一次主題演講中表示：“這種數據演進正在推動硬件革命，對計算的需要也與以往不同。技術節點向前演進是絕對的，但這還不夠，我們還需要解決系統級的異構集成，工藝技術設計的協同優化、軟硬件之間的優化，更重要地，需要持續推動人工智能和新的計算技術。”

因此，儘管晶體管水平性能仍然是一個重要因素，但在從前沿來看，它只是眾多因素中的一個，不過至少在可預見的未來里，這依然是最大的芯片製造商不願意放棄或讓步的競爭。三星最近披露了關於其即將推出3nm工藝的更多細節，該工藝基於下一代晶體管類型，稱為全柵極（GAA）FET。本月，IBM開發了一種基於GAA-FET的2nm芯片。另外，台積電正在開發3nm和2nm，英特爾也在開發更先進的工藝，所有這些公司都在開發一種稱之為納米片FET的GAA FET，其性能優於當今的FinFET晶體管，但也更難製造、更加昂貴。

圖1：平面晶體管與FinFET以及GAA FET，來源：Lam Research

預計3nm的生產將於2022年中開始，2nm的生產將在2023年或2024年之前完成，因此業界需要為這些技術做好準備。不過目前的情況令人疑惑，關於新節點和新功能的官方公告並不完全像它們看起來的那樣。一方面，行業繼續在不同的節點上使用傳統的編號方案，但術語並沒有真正反映出哪家公司領先，另一方面，芯片製造商在所謂的3nm節點上朝着不同的方向發展，並不是所有3nm技術都一樣。

這樣做的好處是每個新節點都是特定應用。在過去的幾個工藝節點中，晶體管密度提升正在放緩，且性價比在不斷下降，而且很少有公司能夠負擔得起僅基於最新節點的產品設計和製造能力。另一方面，開發這些工藝的成本飛漲，配備先進晶圓廠的成本也在飛速增長。如今，三星和台積電是僅有的兩家能夠製造7nm和5nm芯片的供應商。

此後，晶體管結構開始發生變化。三星和台積電正基於當今的FinFET生產7nm和5nm的芯片，三星將轉向3nm的納米片FET，英特爾也在開發GAA技術，台積電計劃將FinFET擴展到3nm，然後在2024年左右遷移到2nm納米片FET。

IBM也正在開發使用納米片的芯片，但是該公司已經幾年沒有生產自己的芯片了，目前將其生產外包給三星。

逐漸混淆的工藝節點命名規則

近十年來集成電路行業一直試圖跟上摩爾定律，力爭每18到24個月芯片中的晶體管密度翻一番。晶體管就像芯片中的開關一樣，由源極、漏極和柵極組成。在具體功能實現中，電子從源極流向漏極，並由柵極控制。有些芯片在同一個設備中有數十億個晶體管。

儘管非常艱難，芯片製造商還是以18到24個月的周期推出了一種晶體管密度更高的新工藝技術，從而降低每個晶體管的成本。以這種節點節奏，芯片製造商將晶體管的規格擴展了0.7倍，從而使該行業在同等功率的情況下提供40%的性能提升和50%的面積縮減，這個公式催生了快而新且功能更豐富的芯片。

每一個節點都有一個數字標識。幾年前，節點的命名基於一個關鍵晶體管指標，即柵極長度。“例如，基於0.5微米技術節點生產的晶體管，柵極長度就是0.5微米”，Lam Research大學項目負責人Nerissa Draeger解釋說。

隨着時間的推進，柵極長度縮放速度變慢，並在某些時候，它與相應的節點名稱並不匹配。Draeger說：“多年來，技術節點的定義不斷發展，現在被認為更像是一個世代的名字，而不是任何關鍵維度的衡量標準”，Draeger說。

一段時間以來，節點名稱已經成為純粹的營銷名稱。例如，5nm是當今最先進的工藝，但5nm的規格還沒有達成一致，3nm、2nm等也是如此，當供應商對節點使用不同的定義時，就更讓人困惑了。英特爾正以10nm工藝生產芯片，這大致相當於台積電和三星的7nm工藝。

多年來，供應商或多或少地遵循國際半導體技術路線圖（ITRS）定義晶體管微縮規格。2015年，ITRS的工作被叫停，業界只能自己定義規格。取而代之的是，IEEE實施了設備和系統的國際路線圖（IRDS），該路線圖的重點是延續摩爾定律（More Moore）和超越摩爾定律（More Than Moore）。

Draeger說：“不變的是，我們期望節點擴展能夠帶來更好設備性能，更高的電源效率和更少的製造成本。”

這並非易事，多年來，供應商一直使用傳統的平面晶體管來開發芯片，但這一結構在10年前的20nm處就已經觸礁。平面晶體管仍用於28nm / 22nm及以上的芯片製造，但業界需要一種新的解決方案，這也就是為什麼英特爾在2011年推出了22nm的FinFET，晶圓製造廠緊隨其後推出了16nm / 14nm的FinFET。在FinFET中，電流的控制是通過在Fin的三個邊的每個邊上實現一個柵極來完成的。

FinFET使業界能夠繼續進行芯片微縮，但它們也更複雜、功能更小，導致設計成本不斷攀升。根據IBS首席執行官漢德爾·瓊斯（Handel Jones）的說法，設計一款“主流” 7nm芯片的成本為2.17億美元，而設計一款28nm芯片的成本為4000萬美元。在這種情況下，成本是在一項技術投產後的兩年或兩年以上后確定的。

7nm及以下，靜態泄漏再次成為問題，功率和性能效益也開始減少。現在，性能提升在15％到20％的範圍內。

在製造方面，FinFET需要更複雜的工藝、新材料和不同的設備。這反過來又會提高製造成本。”如果你把45nm和5nm進行比較，今天我們會看到晶圓成本增加了5倍。這是由於所需處理步驟增加所致”，TEL America副總裁兼副總經理本·拉特薩克（Ben Rathsack）說。

隨着時間的推移，擁有生產尖端芯片資源或能夠看到其價值的公司越來越少。如今，GlobalFoundries、三星、中芯國際、台積電、UMC和英特爾正在生產16nm/14nm的芯片(英特爾稱之為22nm）。但只有三星和台積電有能力製造7nm和5nm的芯片。英特爾仍在開發7nm及更高版本，中芯國際也在開發7nm。

從FinFET轉向納米片

在3nm及以下時，微縮變得更加困難。開發可靠且符合規範的低功耗芯片面臨一些挑戰。此外，IBS的數據顯示，開發主流3nm芯片設計的成本高達5.9億美元，而5nm器件的成本為4.16億美元。

在製造方面，代工廠的客戶可以在3nm走兩條不同的路，但同樣要面臨艱難的選擇和各種權衡。

台積電計劃通過縮小5nm FinFET的尺寸來將FinFET擴展到3nm，儘可能實現無縫過渡。IBS的瓊斯說：“ TSMC計劃在2022年第三季度為蘋果公司提供3nm FinFET的量產，計劃在2023年實現高性能計算。”

不過，這是一項短期策略。當鰭片寬度達到5nm（等於3nm節點）時，FinFET將接近實際極限。根據新的IDRS文件，3nm節點相當於16nm至18nm的柵極長度，45nm的柵極間距和30nm的金屬間距。相比之下，5nm節點相當於18nm至20nm的柵極長度，48nm的柵極間距和32nm的金屬間距。

一旦FinFET碰壁，芯片製造商將遷移到納米片FET。三星從一開始就採用3nm的納米片FET，根據IBS的數據，該產品定於2022年第四季度實現生產。

IBS還稱，台積電計劃在2024年推出2nm的納米片FET。英特爾也在開發GAA。多家無晶圓廠設計公司正在研究3nm和2nm器件，蘋果等公司計劃將該技術用於下一代器件。

納米片FET是從FinFET進化而來的。在納米片中，來自FinFET的鰭被放在其側面，然後被分成單獨的水平片。片與片之間形成通道。第一納米片FET將可能具有3個左右的片，用一扇門包裹着所有的薄片或通道。

納米片在結構的四個側面上實現了柵極，比FinFET能夠更好地控制電流。Leti的高級集成工程師Sylvain Barraud說：“除了具有更好的柵極控制能力（與FinFET相比）以外，GAA堆疊的納米片FET還具有更高的有效溝道寬度，從而提供了更高的DC性能。”

相對於FinFET，納米片FET還具有其他優勢。在FinFET中，器件的帶寬被量化，這影響了設計的靈活性。在納米片中，IC供應商有能力改變晶體管中片的寬度。例如，具有更寬薄片的納米片提供了更多的驅動電流和性能。窄的納米片具有較小的驅動電流，但佔用的面積較小。

“寬範圍的可變納米片寬度提供了更大的設計靈活性，對於FinFET來說由於鰭片數量不連續，更加靈活的設計性是不可能的。最後，由於使用不同的功函數金屬，GAA技術還提出了多種閾值電壓特性”， Barraud說。

首批3nm器件開始以早期測試芯片的形式出現，在最近的一次活動中，三星披露了基於3nm納米片技術的6T SRAM的開發。這個設備解決了一個主要問題，SRAM微縮了器件的面積，但同時也增加了位線（BL）電阻。作為響應，三星將自適應雙BL和電池供電輔助電路集成到SRAM中。

三星研究員Taejoong Song在論文中說：“提出了一種全能的SRAM設計技術，該技術可以在功耗、性能和面積之外，更自由地提高SRAM容限。此外，提出了SRAM輔助方案來克服金屬電阻，從而最大限度地提高了GAA器件的優勢。”

同時，IBM最近展示了一種處於測試階段的2nm芯片。該器件基於納米片FET，可以集成多達500億個晶體管，每個晶體管由三個納米片組成，每個納米片的寬度為14nm，高度為5nm。總的來說，該晶體管具有44nm的接觸多晶硅間距和12nm的柵極長度。

IBM仍在研發中，目標是在2024年推出該芯片。但在任何節點上，納米片器件在投入生產之前都面臨若干挑戰。IBM混合雲研究副總裁Mukesh Khare說：“挑戰的數量沒有限制。我想說最大的挑戰包括泄漏。如何降低功率？當薄板厚度為5nm且通道長度為12nm時，如何提高小尺寸的性能？如何在2nm內獲得合理的RC效益？最後，芯片必須優於先前的節點。”

製造納米片FET是困難的。“在全能門納米片/納米線中，我們必須在看不見的結構下進行處理，而在該結構下進行測量更具挑戰性。這將是一個更加困難的過渡，” Lam Research計算產品副總裁David Fried說。

在工藝流程中，納米片FET首先在襯底上形成超晶格結構，外延工具在襯底上沉積硅鍺（SiGe）和硅（Si）的交替層。

這需要極端的過程控制。“對每一對Si / SiGe的厚度和成分進行在線監測至關重要，這些參數是器件性能和量產良率的關鍵。” Bruker產品營銷總監Lior Levin說。“

下一步是在超晶格結構中開發微小的垂直鰭片。然後，形成內墊片，形成源極/漏極，接着進行溝道釋放工藝。柵極被開發出來，形成納米片FET。

圖2：堆疊納米片FET的工藝流程。資料來源：Leti/半導體工程

晶體管微縮競爭之外，異構集成競爭同樣激烈

晶體管微縮只是方程式的一部分。伴隨晶體管未做競爭的持續，異構集成方面的競爭也同樣激烈，許多最先進的架構不僅包含在單個製程節點上開發單片芯片，還包含許多處理元件，包括一些高度專用的元件和不同類型的存儲器。

英特爾的巴頓說：“分佈式計算正在推動另一個趨勢，即越來越多特定領域的體系結構。我們看到的另一個趨勢是從整體上分解出特定領域的體系結構，主要由人工智能驅動，並且為提高效率而量身定製。”

將複雜模塊集成到一個封裝中的先進封裝方式正在發揮作用。“現在，封裝創新開始在提高產品性能方面發揮更大的作用。”巴頓說。

“從一個節點到另一個節點的性能、功率和面積肯定涉及到更多因素，” Arm公司技術副總裁兼專家Peter Greenhalgh說：“如果世界僅依靠晶圓廠來獲得全部收益，您將非常失望。Arm提供了一種LEGO設計。該樂高積木被添加到其他樂高積木中，以構建一個非常有趣的芯片。有許多昂貴的方法可以做到這一點，但也將在一定程度上實現商品化和協調化。”

向異構架構過渡的同時，還擴展了邊緣範圍，涵蓋了從物聯網設備到各種級別的服務器基礎架構的所有方面，以及Google、阿里巴巴、AWS和Apple等系統公司將設計自己的硬件，以優化龐大數據中心內部特定數據流。這掀起了狂熱的芯片設計活動，將定製和非定製硬件，非標準程序包以及各種方法（例如內存和近內存處理）結合在一起，這些方法過去從未獲得過廣泛的關注。它還着重於如何對處理進行分區，哪些組件和流程需要在微體系結構中確定優先級，以及基於特定異構設計的各種組件的最佳工藝節點是什麼。

Greenhalgh說：“視頻加速就是一個很好的例子。如果您是一家雲服務器公司，並且要進行大量的視頻解碼和編碼，那麼您就不想在CPU上這樣做。您要在其中放置視頻加速器。這是一個範式轉變。”

因此，存有更多不同種類的處理器元件，還有一些擴展是現有處理器核心的開發。

Synopsys的高級市場營銷經理Rich Collins表示：“我們一直有能力通過添加自定義指令或連接自定義加速器擴展架構（用於ARC處理器）。現在的不同之處在於，越來越多的客戶正在利用這一優勢。人工智能是一個時髦的詞，它意味着很多不同的東西，在這個術語後面，我們看到了很多變化，越來越多的公司在標準處理器上添加了神經網絡引擎。”

這些變化不僅僅是技術上的，也需要芯片公司內部做成一些改變。從各種工程師團隊的組成到公司本身的結構。

英飛凌汽車高級副總裁Shawn Slusser表示：“過去，你會發明一堆產品，將它們放在一堆數據手冊中，然後人們會嘗試找到它們。由於設備的複雜性和使用壽命，這種方法不再見效。現在，我們正在研究一種更像是半導體超級市場的模型。如果你想將現實世界與數字世界聯繫起來，那麼一切都可以在同一個地方得到，包括產品、人員和專業知識。”

較大的公司一直在內部發展這種專業模式，這在蘋果的M1芯片中很明顯。M1是使用台積電的5nm工藝開發的，它集成了Arm V8內核、GPU、自定義微體系結構、神經引擎和圖像信號處理器，所有這些都集成在一個系統級封裝中。儘管該設計的性能可能不如使用標準行業基準的其他芯片那樣出色，但運行Apple應用程序的性能和功耗方面的改進顯而易見。

根據行業估計，截至今天已有約200家公司正在開發或已經開發出加速器芯片，其中有多少能存活還不得而知，最終走向解體是不可避免的。在邊緣，汽車、安全系統、機器人、AR / VR甚至智能手機生成的數據太多，無法將所有數據發送到雲端進行處理。它花費的時間太長，並且需要太多的功耗、內存和帶寬。很多數據都需要進行預處理，硬件處理這些數據的優化程度越高，電池壽命就越長、功耗也就越低。

這就是為什麼風險投資在過去幾年中一直向硬件初創公司投入資金的原因。在接下來的12到24個月內，預計該領域投資將顯著減少。

Flex Logix首席執行官Geoff Tate表示：“合理推斷，隨着公司進入市場並與客戶互動，這一窗口將開始關閉。在接下來的12個月中，投資者將開始獲得真正的數據，看看哪種架構真正獲勝。在過去的幾年裡，誰擁有最好的PPT是關鍵。客戶將加速視為運行神經網絡模型的必要條件，對於模型來說，它將運行多快，需要多少功率以及要花費多少成本？他們將依據這些條件選出最適合自己比賽或符合條件的模型。”

設計也在雲端發生變化。在雲計算中，更快的處理以及準確確定處理地點的能力可能會對能效以及數據中心的容量產生重大影響。例如，不只是將DRAM連接到一顆芯片上，DRAM還可以在許多服務器之間共享，從而使工作負載可以分佈在更多計算機上。這不僅為負載平衡提供了更高的粒度，而且還提供了散熱的方式，從而減少了對冷卻的需求，並有助於延長服務器的使用壽命。

Rambus資深研究員、發明家史蒂文·伍（Steven Woo）說：“其中一些數據中心中有成千上萬台服務器，全球有數以萬計的數據中心。現在，你得想辦法將它們捆綁在一起。有一些新技術即將問世。一種是DDR5，它具有更高的電源效率，更遙遠一點的是Compute Express Link（CXL）。長期以來，能夠放入服務器的內存量是有限的，但現在由於能夠在雲中執行更多工作並租用虛擬機，工作負載的範圍要大得多。CXL使你能夠在系統中擁有基本配置，還可以擴展可用的內存帶寬和容量。因此，現在你可以突然支持比以前更大範圍的工作負載。”

結論

爭奪更加先進的幾個製程節點的競爭仍在繼續。剩下的問題是，當公司可以通過其他方式獲得足夠的收益時，哪些公司願意花時間和金錢在這些節點上開發芯片。

不同市場的經濟和動態正在迫使芯片製造商評估如何以最大的投資回報率來最好地應對市場機會，在某些情況下，這可能遠遠超出開發先進芯片的成本。實現不同目標有很多選擇，到達同一目標的方法通常也不止一種。