ChatGPT 啟示錄系列丨誰卡住了中國 GPT 的“脖子”？

作者 | 羅輯程心

編輯 | 庄顏排版 | 李帛錦

來源：自象限‌

回顧過去幾次世界變革的歷史會發現，每隔 100 年世界就會重新交換一次霸權。

只要是成為了霸主，他的技術等核心優勢就會變得普世化，被其他國家和民族所掌握，從而被追平。如果霸主想“續命”，需要有一次根本的技術革命。英國靠着工業革命，續費了 100 年的霸業。

在 ChatGPT 出現之前，美國基本上已經走到 100 年霸主的末端，他的技術優勢已經被更多國家掌握，甚至在互聯網的某些領域，中國還曾出現反超之勢。想要續命要再靠一場技術革命。以 ChatGPT 為代表的大模型開啟的 AI 2.0 時代，很可能就是。

這是新一輪排位賽的開始。面臨技術差距，中國大模型一邊技術趕超，另一邊也在走一條更“接地氣”的路。

本文為自象限策劃的「ChatGPT啟示錄」系列一部分。

圖片來源：由無界 AI工具生成

“百度幾乎將整個集團所有的 A100 都調給了文心一言。”

2 月份百度“衝刺”文心一言時，一位接近百度的人士對「自象限」描述了當時的激烈戰況。

當然，在大模型訓練上，不止百度“勒緊了腰帶”。即使是微軟，在 AI 大模型初始期算力上也並不寬裕。2023 年 3 月中旬，微軟發文透露：曾斥資數億美元，使用了數萬個英偉達 A100 芯片幫助 OpenAI 組裝了一台 AI 超級計算機。

兩個現象表現了算力在 AI 大模型訓練上的重要性，作為 AI 大模型的三要素的之一，在芯片發展受限的背景下，許多人將中國 AI 大模型的薄弱和短板粗暴歸結於中國芯片的不足。

但實際上，芯片算力只是整個 AI 大模型的訓練的一個起點，圍繞着芯片的算力是一個巨大而複雜的系統。

除了不同芯片的架構和設計，還有建立在芯片之上的軟件開發系統，和雲的計算存儲資源，以及圍繞這兩者工具和平台。

如果說 ChatGPT 這把火已經燎原，那算力，就是點燃它的火種。

但在熱鬧錶象下面，算力正在成為生成式 AI 大模型發展最大的桎梏，這種桎梏表現在許多方面，從我們所熟知的芯片性能的不足，再到芯片開發操作系統的視野盲區，甚至是對雲計算底層的重構，都成為了即將要攻克的關鍵問題。

“泛而不強”的中國芯片

面對中國算力短缺的問題，更多人是“知其然不知所以然”，本質是因為整個算力體系相當複雜，而芯片只是中間最重要的一部分。

通常來講，我們說的算力包含三部分，即基礎算力、智能算力和超算算力，而 AI 大模型主要依靠的是智能算力。

所謂智能算力，就是由 GPGPU、FPGA、ASIC 這樣可以加速 AI 計算的芯片組成的服務器平台提供的算力，它們負責大模型的訓練和推理。據 IDC 數據，2021 年中國人工智能服務器工作負載中，57.6% 的負載用於推理，42.4% 用於模型訓練。

▲ 圖源：信達證券研報

雖然可以提供的智能算力的芯片有三類，但 GPGPU 其實佔了目前主流市場 90% 的份額，剩下的 10% 才是 FPGA、ASIC 之類的產品。

GPU 市場份額更大在於其通用化。

梳理中國算力的發展脈絡，大致趨勢可以以深度學習和大模型為節點劃分為三個階段，包括前深度學習時代，深度學習時代和大模型時代。2015 年，以 AlphaGo 為節點，算力進入大模型時代。

在大模型時代之前，人臉識別、語音識別還是 AI 的主要應用場景。這個階段大多數訓練就已經是基於 GPGPU 來實現的了，也因此 GPGPU 形成了目前最為成熟、完備的軟件生態。由於其芯片特點，GPGPU 的通用性也更強，架構也更適合 AI 大模型的訓練和部署。

而相應的，作為定製化和半定製化的 FPGA 和 ASIC，就只能應用在一些針對性的垂類領域。因此它們對模型的成熟度、對企業的模型研究深度都有更高的要求。

簡單來講，通用型的 GPGPU 適合剛入門的小白和資深大牛在內的所有人，而 FPGA 和 ASIC 作為定製款就只適合真正有經驗的“玩家”。當然，通過這樣的定製化之後，FPGA 和 ASIC 芯片的產品和解決方案也有更高的性價比。

在應用場景的基礎上，芯片的應用在 AI 大模型的訓練上又分為訓練和推理兩個具體的環節。目前能夠運行大模型訓練的只有 GPGPU，具有代表性的芯片就是英偉達的 A100、A800、H100、H800。

但這類芯片目前國內的儲備並不多。據「財經十一人」報道，國內目前擁有超 1 萬枚 GPU 的企業不超過 5 家，其中擁有 1 萬枚英偉達 A100 芯片的最多只有一家。另有消息提到，目前騰訊、字節、百度英偉達 A100 的存量都不超過 2000 枚，阿里的存量大約能過萬，而更多公司都只能採用英偉達的中低端性能產品。

事實上也是如此，自 A100 和 H100 被禁止之後，中國企業就已經將目光放到了它的替代品 A800 和 H800 上了。目前，國內幾家頭部互聯網企業都向英偉達下了 1.5 萬～1.6 萬左右的 A800 和 H800 訂單，涉及金額大概在十億美金左右。

當然，國內其實也有自己的 AI 芯片，甚至在上一個國產芯片風口中起來的大多數有名有姓的企業做的都是應用在雲端的 AI 芯片。

比如壁仞科技、燧原科技、天數智芯、寒武紀等等，都有自己的 GPU 產品，甚至部分產品的理論指標都不錯。

比如寒武紀最好的產品思元 270，在硬件指標上大概就能接近英偉達的 A100，而且價格比 A100 還低，百度在訓練文心一言時就小規模的部署了一些。

而之所以沒有實現大規模部署，原因其實有兩方面，一個是寒武紀的這款芯片智能運行大模型的推理部分，即它並不是一個通用的 GPU。而另一方面在於，寒武紀目前還不具備大規模部署的能力。

這種大規模部署的能力具體又分為兩點，一個是其供應鏈是否能夠支撐起芯片的大規模出貨，畢竟一旦大規模部署，一個公司的需求就是上萬枚。而另一個關鍵點在於，當大規模出貨之後，寒武紀還需要為客戶配備大量的人力配合開發，而寒武紀在這方面目前也有沒大力推動的意願。

而除了國內領先的半導體公司之外，國內芯片的整體水平還是比較低的，有業內資深專家表示：“目前國產芯片的性能整體在英偉達的 30% 左右。”

AI 大模型的訓練要求芯片能夠處理高顆粒度的信息。但目前國產 GPU 大多對信息處理的顆粒度不高，還不具備支撐大模型訓練所需的能力。

另一方面，目前的國產 GPU 大多只能處理單精度的的浮點運算，比如壁仞科技 BR100、天數智芯的智鎧 100，以及面提到的寒武紀思元 270 等等，它們在 FP32 的理論指標上做得不錯，但沒有處理 FP64 的能力。

目前從公開信息來看，國內唯一能支持 FP64 雙精度浮點運算的只有海光推出的 DCU 深算一號，但它性能只有 A100 的 60% 左右。

▲ 圖源：科創板日報

除了這些專業做芯片的半導體公司之外，國內的互聯網大廠也幾乎都有自己的 AI 芯片。

比如阿里在 2019 年發布的含光 800，百度在 2020 年發布的崑崙芯，騰訊在 2021 年發布的紫霄，以及華為的昇騰系列等等。

但這些大廠的 AI 芯片大多也都屬於的定製版本，在應用上也面臨諸多限制。

除了前面提到寒武紀的芯片只能用在推理之外，華為的昇騰通用性也很差，它只能應用在 MindSpore 這類華為自己的開發框架下，以及他們優化好的大模型上。任何公開的模型都必須經過華為的深度優化才能在華為的平台上運行。

當然華為也有自己的優勢，即昇騰芯片涉及的所有 IP 都是買斷的，不會存在技術被卡脖子的問題。同時華為圍繞自己的 AI 大模型和芯片建立了一系列的算法和軟件，實現了自己的閉環。

整體上，從芯片的角度國產算力的長徵才剛剛開始，我們在部分細分領域實現了一定的程度的國產替代，但仍然無法實現更多環節存在性能不足和算力漏洞。

而隨着大模型的發展越來越熱，市場對算力的需求仍將呈指數級上升，國產芯片廠商既要解決算力問題，還要解決軟件生態和工具的問題，難度可想而知，但市場留給我們時間卻不多了。

雲 for AI 有戲，AI for 雲差千里

縱然“雲智一體”已經成為了討論的前提，在眾多關於雲與智能關係的論調中，無非是雲計算巨大的存儲和計算空間，能夠幫助大模型訓練大幅度降低成本。

但這卻並不足以道出其中乾坤。

用一個形象的比喻，雲與 AI 就像是新能源與自動駕駛的關係。傳統燃油車的架構複雜，在智能化改造方面，並沒有足夠的空間去安裝攝像頭、激光雷達和芯片，只有在新能源車簡化了發動機系統和整車架構的前提下，才使得自動駕駛硬件和軟件有接入的空間，並以智能化為目標重塑整車結構。當下新能源與智能化如同一對雙生子，同步向前邁進。

同理，在傳統的存儲和計算架構中，並沒有那麼強的彈性和空間，能夠適應 AI 訓練過程中的變化和應用，用傳統服務器和存儲結構訓練大模型，簡直是用諾基亞手機玩原神。而雲計算的存在，既保證了快速響應、快速變化的空間，連接了底層硬件和上層應用，同時也給了大模型訓練更強的算力支撐，可以說，沒有雲，就不會有大模型。

▲ 圖源浙江證券股份有限公司

從 2012 年開始，中國以阿里云為“帶頭大哥”開始了一段雲計算的征程。10 年過去了，在全球排名上，阿里雲已經僅次於亞馬遜 AWS 和微軟 Azure，排在世界第三的位置，在基礎設施的建設和算力準備上，可以說中美並沒有拉開太大差距，這也是為什麼，在《ChatGPT 啟示錄系列 | 萬字長文解碼全球 AI 大模型現狀》一文中，我們強調中國在大模型上有一定的底氣，而日本錯過了雲時代，也就錯過了 AI。

但在多模態大模型和 AIGC 的進一步推動下，對雲計算能力提出了新的要求。AIGC 需要多模態數據和強大的模型，包括不限於時序、文檔、寬表、結構化、非結構化、圖片數據等，還要將各類數據融合在一起，提供存儲、使用能力和推理能力，這是中國雲廠商將要面臨的新挑戰。

不過，雲 for AI 解決的仍然是發電問題，AI for 雲解決的才是發電效率的問題。前者的重點在於“車能不能跑起來”，而後者的重點在於“車能跑的多快”。

這來自於 AI 對雲計算底層架構的改造。

以基礎軟件中，國內跑的最快的數據庫為例。在阿里雲瑤池數據庫峰會上，李飛飛不斷強調“智能化是未來雲原生數據庫發展的動力”。用智能化的技術接入數據庫的運維，比如異常檢測、HA 切換、參數調參等等。

異常檢測場景的智能化可能要更為容易理解，假設該數據庫存在 10 張表格，按列分佈，非智能化數據庫（包括傳統數據庫和雲原生數據庫）的檢測模式，需要將這 10 張表逐列檢測，最終定位故障點。而分佈式則可以將 10 張表拆開同時檢測，用一張表的時間跑完十張表，提高檢測效率。但智能化數據庫則可以通過引入 AI 能力，制定檢測標準，精準定位、精準打擊，將檢測時間從 10 分鐘縮短到幾秒。

這不僅需要強大的 AI 能力，也是不斷測試不斷優化模型的結果，最終讓雲成為智能雲。

帶這個思考重新看“2019 年，微軟 Azure 花 10 億美元買斷 OpenAI 成為其獨家供應商”，就更加感嘆納德拉的老奸巨猾。一方面，Azure 成為 OpenAI 的獨家供應商后，所有基於 ChatGPT 和 GPT4 的 MaaS（模型即服務）服務都長在 Azure 上，這將為 Azure 快速獲得市場份額，甚至有反超 AWS 的可能。另一方面，OpenAI 通過 Azure 訓練自己的 AI 大模型，也快速、高強度打磨了 Azure 的智能化能力，目前 Azure 是全球排名第一的智能雲。

微軟負責雲計算和 AI 業務的執行副總裁斯科特・格思里（Scott Guthrie）在接受採訪時說：“我們並沒有為 OpenAI 定製任何東西，儘管其最初是定製的，但我們總是以一種泛化的方式構建它，這樣任何想要訓練大型語言模型的人都可以利用同樣的改進技術。這真的幫助我們在更廣泛的範圍內成為更好的 AI 智能雲。”

目前，微軟已經在努力使 Azure 的 AI 功能變得更加強大，推出了新的虛擬機，使用英偉達的 H100 和 A100 Tensor Core GPU，以及 Quantum-2 InfiniBand 網絡。微軟表示，這將允許 OpenAI 和其他依賴 Azure 的公司訓練更大、更複雜的 AI 模型。

反觀國內智能雲隊伍，僅有百度智能雲獨自站在冷風裡吆喝了幾年，但在「自象限」看來，百度智能雲離真正的智能雲還相差甚遠。百度雲的“智能”在於通過雲服務提供 AI 能力，比如推薦算法、人臉識別，但這只是服務內容的不同，換湯沒換藥。

不過從李彥宏近期的發言來看，似乎也想明白了“進化”的方向，但可以肯定的是，中國智能雲的故事不會只有百度一家，阿里騰訊華為的動作也都在鎂光燈下。

「自象限」根據公開信息了解到，4 月 11 日，阿里雲峰會中阿里巴巴董事局兼主席張勇出席，或將在會上正式推出阿里大模型，接下來還有各類行業應用模型面世；4 月 18 日，在火山引擎原動力大會中，字節跳動副總裁、火山引擎業務負責人楊震原的出現，也讓業內不少人士期待和推測，是否會發布字節跳動的大模型。

然而無論是技術驅動還是市場驅動，一方面在硬件算力上持續突破，另一方面在軟件算力方向試圖彎道超車，在算力長征路上，中國要補的課、要打的仗都還很多。

本文鏈接：https://www.8btc.com/article/6812328

轉載請註明文章出處