一顆小小的半導體芯片為何會產生那麼大的熱？

滾燙的手機，溫度過高而死機的電腦，這些問題時常困擾着廣大的使用者們，這背後的原因多半要歸咎於芯片過熱。實際上芯片的發熱問題不僅造成了使用上的不便，也給生產者們帶來了巨大的技術成本，並限制了芯片性能的進一步的提升。一顆小小的芯片為何會產生那麼大的熱量？芯片的性能與發熱量有什麼關係？工程師和科學家們又是用什麼方法來解決這一問題？本文就將為你揭曉以上問題的答案。

一，功耗是芯片的夢魘

1965年，英特爾創始人之一的戈登·摩爾提出了經典的摩爾定律， “每18個月性能提升一倍，價格降低一半”，這條金科玉律就像一座路標，指引着行業發展的方向與節奏。隨之而來的就是更小的晶體管，頻率更高的CPU，集成度更高的數字電路和更低的成本。一代又一代的芯片和電子產品由專用走向普及，並逐漸滲透到了生活和工作的方方面面。

也正是如此，人們打開了數字世界的大門，看到了前所未見的光景。但與此同時，芯片性能的躍升也逐漸遇到了瓶頸……

以柵極氧化層為例，在採用CMOS數字電路構造的CPU里，它起到關鍵的絕緣作用。柵極氧化層不僅要保證表面平整，不能有缺陷，為了符合半導體工藝標準，它的厚度也有一個理論的上限值。當製程工藝由90nm向65nm過渡時，雖然芯片的集成度得到了提升，但是想要將小於2nm的這層柵極氧化層的厚度繼續降低，卻是十分困難。這一技術難題讓英特爾這樣的芯片巨頭也為之頭疼。

隨着芯片的加工工藝精度進入原子級別，任何缺陷都被會被無限放大，比如在內部結構中僅僅缺少一個原子的厚度，就可能引起非常大的漏電流，這樣的漏電流不僅白白浪費了電能，更是引起芯片嚴重發熱的原因。以早期的英特爾奔騰四CPU為例，有一半的功耗就是由於漏電被浪費了。

如今的CPU的單核速度可達到4GHz，算力的提升也帶來了功耗和發熱量的水漲船高，這時如果還照方抓藥式地採用傳統的風扇降溫，CPU內部的熱量就會迅速攀升甚至將其融化。為了兼顧算力和功耗，工程師則採用了雙核芯片及多核的方法，走多核芯片路線以分擔單顆CPU的工作負荷間從而降低功耗和發熱。除此以外，此後材料的革新，也能夠對功耗和散熱起到了非常大的優化作用。

二，神秘的測試

測試是檢驗真理的唯一標準。就像學生時代的臨考前，老師們千叮嚀萬囑咐的一句話：做完題目別著急交卷，先檢查檢查，在半導體製造過程中更是如此，從芯片的製造到交付出貨期間，芯片測試已成為了不可或缺的環節。

在所有電子元器件的製造工藝裡面，存在着去偽存真的需要，為了實現試驗的過程，就需要各種試驗設備，這類設備就是所謂的ATE（Automatic Test Equipment）。

ATE是一種通過計算機控制，進行芯片、電路板和子系統等測試的設備，通過計算機編程取代人工勞動，自動化地完成測試序列。ATE的應用場合涵蓋集成電路整個產業鏈，主要包括了芯片的設計驗證、晶圓製造相關的測試到封裝完成後的成品測試。

ATE市場的發展可以追溯到1960年代，早期的半導體測試設備發展並不完全是由獨立的設備商引導，而是由半導體製造公司主導。仙童半導體（Fairchild）、德州儀器（TI）等製造企業生產ATE都是用於內部使用，而從1980年代起，ATE領域開始進行整合，2011年惠瑞捷（VERIGY）被收購后，形成了以泰瑞達（Teradyne）和愛德萬測試的雙寡頭格局。

回顧ATE的發展史，可以說泰瑞達是“第一個吃螃蟹的人”。早在1960年，兩位麻省理工高材生在波士頓創立了泰瑞達公司。如今，在波士頓總部的展示區域，依舊陳列着世界上第一台ATE設備D133，它是1961年推出的第一台二極管測試機，標誌着自動測試設備邁入全新紀元。Teradyne（泰瑞達）的命名頗有意思，名字中的”Tera”取自10的12次方的前綴，”dyne”是力學的單位。如此命名，也意味着這家公司將是一股不容小覷的巨大力量。

從70年代到80年代早期的十年間，集成電路經歷了由小規模到中規模再到大規模和超大規模的變遷。這時計算機控制的測試系統成為主要的測試設備。80年代中期，隨着門陣列器件的成功開發，對於測試方面要求達到了256管腳，速度高於40MHz。進入到90年代，單片處理器單元（MPU）的問世也帶來了高速高管腳數的ATE。隨後多媒體器件的出現使ATE變得更加複雜，需要同時具有數字電路、模擬電路和存儲器電路的測試能力。

近年來，工藝節點不斷提升，芯片製程工藝不斷逼近物理極限，這些也帶來了更高的集成度。隨之而來，整個芯片的功耗方案也要作出相對應的改變。

當下，先進製程芯片具有非常複雜的供電系統，測試成本不斷增加的同時，測試環節對產品良率的監控將會愈發重要，這樣的情況下，ATE該如何測試？

三，實際測試中的挑戰

應用處理器的測試機里有兩個非常重要的單元，其一是數字芯片測試的數字I/O，數字I/O承擔了相對複雜的工作，可以抓取失效；另一個就是電源，雖然DC電源看起來比較簡單，但在實際的大功率處理器的測試中，電源在起到非常重要的作用，因為它決定了測試質量，最終測試的良率也與電源的實際性能息息相關。

展開來看，應對不同的挑戰，不同測試環節的測試參數和應用場景稍有區別，就需要採取不同的解決方案。

對於複雜的供電問題，利用模塊化的供電策略可以降低多相位複雜供電的困擾。通過靈活地分配測試資源，將電源拆解成一個個小的電源模塊，任意組合成小的單元模塊給不同的電源軌供電，同時還可以利用冗餘的電源模塊來幫助已經預設好的模塊降低供電電源軌的穩壓壓力。

簡單舉例，一個需要30安培的VDD引腳，如果每個通道支持5安培的輸出能力，可以組合6個這樣的單元來供電，同時利用冗餘的通道組合單元與前面的6個單元組合在一起降低供電壓力。

此外，還可以利用軟件編程的方式設定上電次序、軟啟動等，以減少外圍供電電路。

對於大多數應用處理器來說，工作頻率與VDD一般呈現正相關性。在前期的設計驗證中，廠商會嘗試尋找sweet point使得芯片在有限的功耗下表現出更好的性能，在實際的生產測試中，可能會直接地設定一個指定的VDD，看其能否在這個特定的VDD下達到預期的頻率。

然而，在實際的測試中，沒有一款測試機是完美的。實際操作中，芯片會經常性產生誤差，一種方式是嘗試編程稍高於芯片預設值的電壓，由於考慮芯片的誤差及所有的損耗，需要保證芯片引腳上的電壓依然高於預期值。通過這種測試方法，即使儀錶波動到最低的電壓情況下，質量好的器件仍然可以pass，從而獲得更高的良率。

另一種方式，直接將測試儀錶的輸出編程等於預期值，由於實際上一些測試機並不能達到良好的精準度，在一些情況下略低於輸出，導致這部分的芯片實際測試電壓低於預期值。

這兩種方式會造成不同的負面效果。在第一種的情況下，VDD的預期值需要制定得更高一些，這樣的話實際的電壓會高於預期值，實際測試中的熱損耗也會更大，在測試中就需要低速的向量幫助降溫。

第二種情況下，雖然實際出貨的產品都能夠pass預期值，但是對於一些誤差比較大的機器，會造成額外的良率損失。對於7nm、5nm的先進製程產品來說，良率是極其重要的一個因素，由於先進製程產品尤其是晶圓面積較大時的良率本身非常低，在此基礎上如果又額外損失一部分良率，這對於器件製造成本是難以接受的。

面對種種挑戰，我們該如何測試？測試機應該具備怎樣的特性滿足以上的諸多挑戰需求呢？

四，不同測試挑戰的對症下藥

“Millivolts Matter”，每一個毫伏的精度都非常重要。越來越低的核心電壓對電源的輸出精度，以及動態響應提出了越來越高的要求。泰瑞達一直把電源儀錶的輸出電壓能力作為儀錶設計最重要的參數之一，這也是泰瑞達區分於眾多ATE廠商的特徵之一。

在實際測試過程中電源的供電不是完全平坦的，實際的電源功耗與實際工況有很大關係，甚至會導致芯片丟失狀態，從而導致器件失效。這樣的問題既難預測又很難排查。

通過不斷改變輸出的VDD與Scan Shift頻率來查看所有測試向量的輸出結果，當VDD越低頻率越高時，越容易發生失效。在實際的Shmoo測試案例中，泰瑞達的UltraFLEXplus具有更穩定的供電電源，這意味着可獲得更高的邊界良率，使得芯片更加貼近於真實的本徵。這樣一來，在實際產品中，我們對於芯片的實際工況便能夠得到一個更加準確的推斷，知道哪些情況是可以工作的，哪些情況是不能工作。總的來說，更好更穩定電源不僅能夠提升良率，還能夠認識芯片在真正工況下的工作狀態。

目前，很多芯片需要非常大的電流供電能力，輸出一個非常大的電流能力對測試機來說已經不是一個難題了，很多測試機已經能夠輕鬆供給1000A的輸出能力。然而多工位測試的時候每個芯片的單個電源軌上電都要達到800 -1000A，測試機雖然能夠滿足1000A的靜態供電，它是否能夠滿足0A到1000A的單步上電過程，成為了一個難題。在多工位測試的時候，泰瑞達所提供的解決方案就能夠滿足單步上電的大電源供給。

除了關注電源靜態、動態的部分，在電源的外圍電路設計上，socket、探針卡、loadboard等與電源的性能也是息息相關。

測試儀錶的動態響應對直流電源的表現影響非常大，優秀的電源方案可以幫助減少外圍電源電路的複雜度。傳統的ATE解決方案首先需要板卡提供能量供給，大多供給從直流部分到100kHz的頻域範圍，針對低頻、中頻、高頻等其他頻段也需要增加不一樣的外圍電路，致使整體電路比較複雜。

泰瑞達側重於簡化電路設計，通過ATE本身就能提供從低頻到中頻的輸出能力，不需要增加額外的外圍電路，儘可能減少電容數量。在實際操作中，只需加入較少種類的低ESR/ESL陶瓷電容來幫助改變高頻特性，令單個型號就可滿足輸出的動態性能。

這樣的好處在於：1）降低電容值以加速恢復時間；2）電容少意味着充放電時間更快，也就意味着充放電的能量會變少，這樣可以加速測試時間並降低socket被能量損傷的概率；3）降低電容使用種類，在使用單一電容的情況下，可以降低電路發生諧振、慢恢復等的可能性。

另一個比較大的挑戰在於測試單元，大功率的先進製程芯片功率耗散非常大，多數輸出的能量最終都會轉化為熱量。我們在測試時要避免芯片無限制地升溫導致芯片“被燒壞”，而是希望在測試參數的時候做到可重複、可重現，使芯片維持在穩定的情況下測試，保證所有收取數據的一致性。最直接的辦法可採用在測試單元的時候使用ATC（Automatic Temperature Control），常見的辦法有三種：方案一）DUT Power Monitor；方案二）Die Temperature Monitor；方案三）Package Temperature Monitor。