4 月大模型混戰，華為阿里商湯都走到哪了？

作者 | 葉子

編輯 | 釗

來源丨奇偶派

原文標題：《專家訪談，看 4 月大模型混戰，華為阿里商湯都走到哪了？》

圖片來源：由無界 AI工具生成

3 月下旬，英偉達在美國加州總部舉辦了面向軟件開發者的年度技術峰會 GTC。會上，創始人黃仁勛發布了專用於大語言模型部署的 GPU 推理平台——H100 NVL，其或將在推理階段實現比現有最先進的 A100 快 10 倍的速度。

但如此先進的 GPU 卻無法運往國內，去年 8 月，美國監管機構以國家安全為由，對 NVIDIA A100、H100 兩款 GPU 實施禁令，不得銷售給國內企業，意在通過“卡脖子”的方法來降低國內 AI 模型的傳輸速度，拖延中國人工智能發展。

而目前也確實對國內 AI 企業產生了較大的影響，在算力的大需求之下，呈現出了“一卡難求”的情況，就連閹割版的 A800 也一直處於缺貨的狀態。

但與 GPU 硬件窘迫的境況不同的是，在繼 3 月 16 日百度發布文心一言大模型后，國內眾多科技、AI 巨頭都相繼公布了各家大模型的發布會時間：4 月 8 日華為盤古大模型發布、4 月 10 日商湯大模型發布、4 月 11 日阿里大模型發布、4 月 14 日同花順舉辦 AI 產品發布會，國內大模型的“百家爭鳴”與 GPU 被禁運后的“慘淡”狀況，也形成了鮮明的對比。

這個 4 月，成為國產大模型混戰期。

那麼，在 GPU 受限的情況下，國內 AI 行業發展境況如何，能否交出屬於他們自己的答卷？未來的發展是否會與國外越差越大？

本文，奇偶派以已經發布或近期即將發布的大模型與相關 AI 應用的企業為例，通過專家訪談等方式，研究和分析各企業 AI 大模型的發展狀況。

華為盤古大模型避開 GPT，劍走偏鋒？

華為盤古大模型，最近的發布多少有點高開低走，突破性進展不多，尤其是在 C 端幾乎沒有新應用側產品，主要還是展示了華為在 B 端智能化方向上的技術實力，為華為雲服務和可見的銷售市場做技術支撐。

4 月 8 日，在人工智能大模型技術高峰論壇上，華為雲人工智能領域首席科學家田奇介紹了盤古大模型的進展及其應用狀況，包括 NLP（自然語言處理）大模型、CV（機器視覺）大模型、科學計算大模型、多模態大模型、語音大模型等的研發與應用的相關情況。

在會前，最引人關注的莫過於盤古的 NLP 大型模型，據介紹，該模型利用了深度學習與自然語言處理技術，並且採用海量中文語料庫對其進行培訓。

而在參數和數據的堆量方面，百度文心一言參數為 100 億，數據為 4 TB。而 GPT-4 則達到了 1750 億，數據 45 TB。華為盤古大模型的參數高達 1000 億，數據高達 40 TB。如果單從參數上看，盤古大模型已接近 GPT-3.5。

但在這次發布會中，田奇卻並沒有提到盤古 NLP 大模型的相關應用。只是將過去已經發布的功能，進行了較為簡單的集合介紹。相對而言，另外兩個大模型則着墨更多，以較多篇幅介紹了 CV 大模型和科學計算大模型的應用範例。這也讓眾多翹首期盼華為能發布一款趕上 ChatGPT 應用的“粉絲”們，多少有一些失望。

但實際上，早在發布會之前的相關交流中，內部專家就已經就該話題做出了相關回答：

“首先，在華為發展歷史上，很少是在新的趨勢出現后立馬就追上來的。公司發展的 30 多年間，基本沒有做到過先發，而是一直採用后發制人的打法，在手機、在雲、在汽車上是如此，在這個領域中也會如此。”

“想要做出一個比較完美的 NLP 大模型，是一個集團級的項目，通常做出決定會比較緩慢，在一兩年內也不太會出現。而當前公司在儘力地完成 AI 工程化、AI 產品化，公司認為這是商業化不得不走的路線，如果採用高度項目制，成本很高，並且也會出現項目不可複製的情況，因此華為的重點最後才放在了面向行業的 CV 大模型上。”

正如相關專家所說的，盤古大模型中最為領先的，正是 CV（機器視覺）大模型。

會上，田奇還談到，在過去的 2022 年，華為盤古大模型主要是 AI for Industry（AI 賦能產業），為煤礦、水泥、電力、金融、農業等行業創造了更多產業價值，其中 CV 大模型早就有了許多用武之地。

比如在與能源公司合作的盤古礦山大模型中案例中，礦井現場是一個 40 米長的採掘機，寬度僅 2 米左右，傳統相機很難一下子捕捉到全部畫面，只能用圖中的九宮格視頻畫面。而通過 5 G+AI 全景視頻拼接綜采畫面卷，傳輸到地面，地面工作人員將來可以實現地面控制機器進行採礦，實現礦下無人少人安全作業。

盤古礦山大模型還用在了煤礦的主運輸皮帶作業監控。煤礦被採集下來以後，它會通過一個主運輸皮帶，從地下傳輸到地上。按傳統方法是通過工人配合作業，華為提出通過視頻對作業的安全規範進行巡檢，主運場景的異物識別精度達 98%，煤礦作業場景動作識別準確率達 95%，助井下安全事故減少 90% 以上。這些都是 CV 大模型的落地應用。

此外，大模型還能進行軌道機車缺陷檢測，比如掉鏈、脫落、裂痕等潛在不安全因素，人工檢測成本較高，盤古大模型提供圖像質量的自動評估、小樣本的故障定位與識別等。

可以說，華為選擇了一條與其他 AI 企業不一樣的道路——暫時放棄以 ChatGPT 為代表的 C 端需求，專註 B 端工業需求的開發。

不可否認，華為作為國內受美國制裁最嚴厲的公司，無論從算力資源、或是從公司發展理念、又或者是從商業化角度來看，選擇專精於 B 端的打法是正確的。一來可以避免超大數據量的訓練，二來又可以為處於“寒冬”中的集團早日“造血”。

或許，在算力無法獲取之時，不去糾結內耗於 ChatGPT，才是華為真正的 AI 之路。

手握巨大算力的商湯大模型，未來有隱憂

緊接着華為盤古大模型發布后，商湯科技的大模型也即將登場。

不過，由於上市公司相關信披原因，目前公司正處於發布大模型之前的靜默期，所以沒有辦法披露過多的大模型相關內容。但是，作為最早把人工智能大模型寫入招股說明書的公司，商湯確實是有着足夠的實力，來推出獨屬的大模型。

而在近期的相關交流中，商湯相關人士還是回答了一些與算力相關的問題。

首先是大眾最關注的算力資源方面，商湯擁有極為充足的 GPU 儲備，對方表示，在去年停售之前就有 1 萬張 A100 芯片了，完全可以覆蓋訓練一個千億參數量的語言模型的消耗。

而除了英偉達專用顯卡外，商湯也有採購國內的 GPU，專家表示：“比如說寒武紀與海光，最近這兩家公司可能很多投資人都很關注，想了解他們的產品是否進入了大規模試用階段。但是，如果大家在去年有去參觀我們商湯的大裝置的話，就應該看得到我們在大裝置裡面已經適配了很多寒武紀和海光的 GPU 卡，我們也是寒武紀最大的客戶之一”。

而在談及國產替代方面時，專家也坦言，“我們很早就開始與國產 GPU 廠商合作，去適配國產 GPU 卡，但坦白來說，當前的大模型訓練，確實是只有 A100 與 A800 能夠勝任，國內 GPU 卡的易用性與性價比都無法去比較，但在推理階段，寒武紀最新款的 GPU 在大模型領域也有了不錯的表現，期待未來會更好。”

而在被問及 H100 出現是否會對國內 AI 企業產生影響時，專家表示，H100 加速芯片的出現，確實在性價比上有十分顯著的提高。但如果不考慮性價比的話，當前已有的芯片是完全可以勝任的。

而在算力的使用技術方面，商湯較眾多 AI 企業來說有着極為明顯的優勢。

在 A100 存量優先的情況下，如何利用僅有的資源去做更多的事情，成為了商湯需要解決的一大問題。

專家表示，商湯科技在過去五年中，有着豐富的千卡并行的訓練經驗，最大的單任務訓練可以同時調動 4000 張 A100 的 GPU 卡，等效算力為 1 萬張 A100，已經達到了訓練 GPT3 甚至 GPT4 的門檻。

而在國產 GPU 的優化適配上，商湯也同樣有豐富的經驗，“目前有 10% 左右的算力，是由國產 GPU 卡提供了，商湯也一直在進行適配，無論是規模比較大的寒武紀、海光，或是當前規模比較小的昇騰，都有着相應的適配支持”。

也正是因為多年的訓練經驗，讓商湯獲得了較為明顯的優勢，“我們目前的算力規模可以支持 20 個千億參數量超大模型共同計算，同時訓練，對客戶的技術迭代有十分明顯的幫助。”

但被問及當下的挑戰之時，專家再次重點提到了國產 GPU 的適配問題。即當前國產 GPU 不太能夠支持超大模型的訓練，還需要投入更多去進行優化。此外，雖然國產 GPU 已經展現了一定的能力，但依然任重道遠。

總的來說，商湯科技作為最早一批的 AI 企業，有着極為深厚的訓練經驗，也在禁運之前拿到了上萬張 A100 顯卡，這讓其在當前的 AI 大戰中擁有了極強的競爭力。

但從另外一個角度來看，短期內高端 GPU 禁運的影響還可以通過豐富的訓練經驗、更大的成本投入來進行掩蓋，但從長期來看，如何能持續獲得高端 GPU，才是商湯需要考慮的問題。如果禁運依舊存在，並且國產 GPU 無法適配超大模型的訓練，那麼與國際尖端 AI 企業、與最先進的大模型之間的距離，將會被持續拉開。

阿里大模型突上線全面發育還是落後？

4 月 4 日，B 站一則阿里版 ChatGPT 全網首測視頻流出，引爆全網，同日下午，阿里正式宣布將於 4 月 11 日的阿里雲峰會上推出大模型。

從視頻中看，阿里大模型超出大家預期的主要有兩點：

一是“音色”“文風”“情緒”都可改變，定製化屬性顯現，受眾面大幅增加，視頻中 UP 主先是運用了脫口秀演員“鳥鳥”的聲音作為模型交流，然後並要求 ChatGPT 接下來用“貓娘”的身份進行後續對話，整體定製化特徵明確，不再局限於固定形式，代表着後續每個人可根據自己的需求定製屬於自己的“性格”不同的 ChatGPT，幾乎可滿足所有受眾群體。

二是阿里 GPT 的成熟程度超出預期，15 個問題中有 10 個問題的回答都明顯好於國內已經公布的競品，並且突破了雙工對話，整體帶入性更強。

而就在發布前的一周，也有相關內部專家接受了採訪，回答了“國內語言大模型與 ChatGPT 有多大差距”的相關問題。

專家表示，起碼在未來的一年到一年半之間，國內是絕不可能出現對標 GPT4 的產品的，只有先把 ChatGPT（GPT-3.5）追上，才有資格去談 GPT4。目前，國內大多仍然都是以文本、圖像、視頻等單模態的方式發布的，並且文本大模型已經進入商用階段，百度走出了第一步，其他的眾多 AI 企業和科技企業也都會在年中或者下半年進行發布。

而在追趕 GPT-3.5 的過程中，也有着三個核心瓶頸：

一是數據量的不足，只有擁有了足夠多的數據，才能繼續訓練，而公有的數據大家都可以買到，所以核心競爭點是如何獲得足夠多的私有數據，權重佔比達到了三成左右。

二是模型結構的創新性，國內的語言大模型目前做不成高層級的架構，也就沒辦法做海量的數據訓練，也是最大的瓶頸，權重達到了四成左右。

第三便是工程化的能力，在工程落地的時候，大家都知道需要預訓練、調優訓練與推理訓練，但在真正部署的時候，是完全要靠自身去摸索的，包括數據的處理，模型的訓練，模型優化，模型的部署和運用，都需要投入大量的時間、精力與財力，這方面的權重與數據量類似，也是達到了三成的權重。

但這一切的前提是算力充足，阿里是當前國內擁有 A100 GPU 最多的企業，在當下階段算力並沒有多大阻礙，但未來伴隨着禁運的持續與算力需求的增加，也將面臨高端運算卡不足的情況。

而在追趕 ChatGPT 之外，電商作為阿里起家的領域，也讓人好奇阿里大模型將會為電商領域帶來多大的改變。

專家表示，在電商場景中，比較主要的還是推薦算法與營銷圖案、文本的生成。未來，阿里大模型將會包攬營銷圖案、產品介紹、產品描述等工作。

“實際上，去年我們就已經讓一些商家使用這個技術了，我們挑選了上百個商家，預計要花數百萬去請廣告公司去做的營銷圖案，阿里大模型的 AI 都可以勝任，cover 40% 的工作量。”

“而在營銷之外，還有虛擬直播等許多場景可以被替代，包括倉儲預測、物流信息的挖掘，都需要一步步找場景滲透，慢慢將老一代的技術進行替代，幫助中小企業，最終達到雙贏”。

總的來說，阿里大模型作為一個龐大集團下的一條項目線，看起來並不像其他 AI 科技企業那麼出彩。但目前，阿里的文本大模型進度在國內也已經位屬前列，並且其他模型也在有序推進之中。

不過，這一切的前提是算力的充足，伴隨着技術的推進與數據量的增加，在未來，算力可能仍是邁不過的那道坎。

股價暴漲，同花順 AI 是翻新產品嗎？

而在 AI 巨頭與科技公司之外，各行各業的企業其實早已經將 AI 應用於實際業務中，而同花順就是其中一員，4 月 14 日，同花順也將舉辦 AI 產品發布會。

實際上，同花順的 AI 產品，早就已經應用，主要包括 i 問財、基於 AI 技術的增值服務產品與 B 端 AI 產品。

其中，同花順主打的便是 i 問財這款 AI 產品。i 問財是目前財經領域落地較為成功的自然語言交互問答系統，而公司也在 2022 年進一步加大對其研發投入，採用全新的語義解析方案，結合 AI 大模型、小樣本學習等技術的應用，有效提升 i 問財服務效率，可將服務場景從財經領域擴展到通用領域，從中文場景擴展到多語言場景。

通過 i 問財機器人，我們可以獲得相關資訊、數據以及 AI 的點評；還可以準確地提供 A 股公司的基本面及板塊情況，並通過多類圖表的形式顯現出來；還可通過向問財機器人提問，實現條件選股，是市面上成功的一款財經 AI。

而在 AI 之風的推動之下，同花順的股價也節節走高。自 3 月 17 日以來，在短短 12 個交易日中，股價便從 115.57 元上漲至最高的 239.22 元，完成快速翻倍。

在股價飆漲的背後，同花順能否發布更有含金量的 AI 應用，我們還無從得知。但如果僅僅以目前的 AI 應用水平，是絕無可能撐起如此高的市值的。

而同花順的 AI 含金量究竟如何，或許只有當其產品發布之時，我們才能知曉吧。

寫在最後

縱觀國內已經發布的文本大模型或者 AI 應用，亦或是與各企業相關專家進行交流，我們都能發現一個問題，那就是國內的大模型水平，實際上才剛剛起步。

在硬件方面，英偉達高端 GPU 遭受禁運，國內只能拿着為數不多的 A100 與閹割版的 A800 進行訓練和推理。當前尚可通過豐富的訓練經驗，更高的資本投入來短暫掩蓋國內算力嚴重不足的事實。但若是站在更高處，GPU 發展嚴重落後，終將成為殺死中國 AI 的一把利刃。

而在算法層面，國內 AI 企業也面臨著極為尷尬的局面，讓一群善於應用創新的企業直接去做底層創新，無異於趕鴨子上架。在國外 AI 企業不再開源

算法后，如何找到模型開發的創新點，才是最困難的。對於一直停留在 64 層的眾多國內 GPT 模型來說，想要對標 ChatGPT 甚至 GPT-4，無異於痴人說夢。

不可否認，應用層面的“軟實力”，可以讓一家 AI 企業快速找到盈利的目標，但在真正的國產 AI 戰爭打響之後，硬件和算法層面的“硬科技”，才是我們當前最缺乏的能力。

若只重視應用層面而忽略硬件與算法層面造出來的商業輝煌，就像井中月、水中花一般，雖然美麗，但一經波瀾便稍縱即逝。也只有真正擁有算力、算法層面的能力，才是中國 AI 發展歷程中真正的進步。

我們的算力之戰和算法之戰剛剛拉開序幕。

此刻，中國 AI 的翻身之戰，需要一些真正的“硬核武器”，才能正式打響。

參考資料：《華為 AI 盤古大模型研究框架》，浙商證券

本文鏈接：https://www.8btc.com/article/6812914

轉載請註明文章出處