存內計算，走在爆發的邊緣

怎樣才能讓一枚芯片擁有更高的性能？大多數人的回答一定是緊跟摩爾定律，在同樣大小的芯片空間內裝進更多的晶體管，其手段無外乎更先進的製程（從7nm到5nm）以及更先進的封裝方式（如chiplet）。

作者|洪雨晗

然而，隨着先進製程逼近1nm的物理極限，摩爾定律不可避免的放緩，即便是在日常生活中，人們也能感受到手機Soc、電腦的CPU的升級換代效果越來越差，從過去的每代提升40%性能迅速下降至20%甚至10%。

與之對應的是，當今社會對數據、算力、芯片性能的要求卻越來越高，整個下游市場既然有龐大的需求出現，那麼整個產業鏈的各方都在想方設法來提高芯片的性能，既然傳統的在晶圓上改進工藝的方式進展緩慢，那麼在更上層的計算機架構上動刀或許會有意想不到的收穫。

今年以來，一些跳出傳統計算機結構體系的設想正在轉為研究成果出現在各大頂級期刊上，它就是“存內計算”。

存內計算，顧名思義就是把計算單元嵌入到內存當中。通常計算機運行的馮·諾依曼體系包括存儲單元和計算單元兩部分，計算機實施運算需要先把數據存入主存儲器，再按順序從主存儲器中取出指令，一條一條的執行，數據需要在處理器與存儲器之間進行頻繁遷移，如果內存的傳輸速度跟不上CPU的性能，就會導致計算能力受到限制，即“內存牆”出現，例如，CPU處理運算一道指令的耗時假若為1ns，但內存讀取傳輸該指令的耗時可能就已達到10ns，嚴重影響了CPU的運行處理速度。

此外，讀寫一次內存的數據能量比計算一次數據的能量多消耗幾百倍，也就是“功耗牆”的存在。2018年，Google針對自家產品（Chome/Tensorflow Mobile/video playback/video capture）的耗能情況做了一項研究，發現整個系統耗能的62.7%浪費在CPU和內存的讀寫傳輸上，傳統馮·諾依曼架構導致的高延遲和高耗能的問題成為急需解決的問題，其中的短板存儲器成為了制約數據處理速度提高的主要瓶頸。

馮·諾依曼架構圖

把計算單元嵌入到內存當中的理想情況下，存內計算可以有效消除存儲單元與計算單元之間的數據傳輸耗能過高、速度有限的情況，從而有效解決馮諾依曼瓶頸。

存內計算的概念早就有跡可循，在上世紀70年代William H。 Kautz就曾提出過存儲和邏輯整合的方案，Harold S。 Stone緊接着發表了支持邏輯運算的存儲計算結構，但由於當時的性能瓶頸問題不算突出，處理器的發展暫能滿足數據處理的需求，因而學界、業界並沒有對該領域投入過多關注。

如今，隨着人工智能技術的發展，AI在各領域的應用逐漸廣泛，以深度學習為代表的神經網絡算法需要系統能高效處理海量的非結構化數據，例如文本、視頻、圖像、語音等，這導致在馮·諾伊曼架構下的硬件需要頻繁讀寫內存，其計算任務有着并行運算量大、參數多的特點，這使得AI芯片對并行運算、低延遲、帶寬等有着更高的要求，也因此，存內計算在人工智能時代迎來了發展的黃金時期。

存內計算的熱度肉眼可見的在各大學術會議上發酵。2018年的IEEE國際固態電路會議（ISSCC）專門用了一個議程來研討存內計算相關話題；到2019年，電子器件領域的頂級會議IEDM上關於存內計算的研討議程則變成了三個，相關論文也達到二十餘篇；2020年的ISSCC上存內計算的論文也上升至七篇。

存內計算不只是學界的圈地自娛，三星、SK海力士、台積電、英特爾、美光、IBM等半導體領域的巨頭也在加緊對該技術的研發，今年的競爭更是尤為激烈，首先三星在頂級學術期刊Nature上發表了全球首個基於MRAM（磁性隨機存儲器）的存內計算研究，緊接着台積電在近日的ISSCC上合作發表了六篇關於存內計算存儲器IP的論文，大力推進基於ReRAM的存內計算方案，SK海力士則發表了基於GDDR接口的DRAM存內計算研究。

應着這陣風口，我國的存內計算產業也開始迅猛發展，知存科技、九天睿芯、智芯科、后摩智能、蘋芯科技等國內專註存內計算賽道的新興公司紛紛獲得融資，加速在該領域的早期市場布局及商業落地。

雖然不管學界、業界還是市場對存內計算的呼聲都極高，相關研究和產品的研發在如火如荼的進行，但在現階段存內計算的實現確實面臨著諸多難點，目前市面上仍缺乏被市場認可而廣泛應用的存內計算產品出現。

目前，業界實現存內計算的三種主流路徑為SRAM、DRAM、Flash，簡單來說DRAM內存具有動態刷新，斷電會丟失數據的特徵，SRAM為高速緩存，其無需刷新，但同樣會在斷電狀態下丟失數據，Flash則為閃存，其有着無需刷新，斷電不丟數據的特徵，通常作為硬盤使用。

選擇SRAM路徑的代表性半導體企業為台積電，它可以在5nm的先進工藝上製造。SRAM的存儲邏輯簡單清晰，和現在的數字處理器技術更容易結合，同時，SRAM離CPU近讀寫性能優勢較大，但作為易失性存儲器的SRAM同時也有着斷電后數據無法保存的問題，因此SRAM還需要在斷電后把數據傳輸到其它存儲器中。

Flash陣營的代表玩家為美國的Mythic公司，Flash是一種業內較為成熟的存儲器技術，它在功能工藝參數、器件模型上都有着成熟的工具，同時，其系統架構的核心設計可以向非易失性的RRAM（電阻式隨機存取存儲器）等新型非揮發器件上遷移，迅速完成產品的更新迭代，

基於DRAM的存內計算芯片，目前採用該方案的公司較少，因為其技術落地的時間暫不明朗。DRAM存內計算適合大算力AI芯片，其對硬件的通用性和可編程性的要求更高，這對目前專用性的架構來說需要花更多心思來重新設計，其難度自然更高。

綜合來看，存內計算的實現基於相對成熟的易失性存儲和不太成熟的非易失性存儲，但無論是哪種路線的實現都存在一定的挑戰，幾大技術方向也都在發展中。易失性存儲路線在融合處理器工藝和存儲器工藝上存在諸多難題，在馮·諾依曼架構下，處理器與存儲器的區隔明顯，從設計、製造、封裝全流程，它們各自都發展出了獨立的生態，想要把兩者融合成一體，其工藝難度可想而知。知存科技走的就是易失性存儲路線，其CEO王紹迪曾形容過該路線早期開發的難度：“早期研發的時候，由於缺乏晶圓工廠和EDA工具的支持，我們的開發工作很多就要從自動變成手動。”非易失性存儲對存儲目前廠商和工藝也均未成熟。

極強的市場需求與暫未明朗的技術產品，誰能率先在可控的成本內實現存內計算存儲密度與計算密度的平衡，誰或許就摸索到了成為下一個英偉達的路徑。