大廠大模型：久違的一把手工程

採訪丨程曼祺時嫻祝穎麗

文丨程曼祺張家豪

編輯丨程曼祺

來源丨 晚點LatePost

圖片來源：由無界 AI工具生成

最近 4 個月，整個世界因 ChatGPT 進入快進狀態。幾乎每隔幾周，最近是每隔幾天，就有人工智能新進展刷新新聞版面，也刷新人們的認知。

面對 ChatGPT 和背後的大模型機會，中國科技大公司的共性是，一把手親自跟進。

字節跳動創始人張一鳴開始看人工智能論文了。一位字節人士稱，張一鳴近期時常會和一些字節人士分享論文學習心得和對 ChatGPT 的思考。他在兩年前已卸任字節跳動全球 CEO，但依然是字節重大戰略的籌謀者。

阿里巴巴董事局主席兼 CEO 張勇忙着對阿里做大重組，但也親自盯阿里的人工智能新項目，阿里將在 4 月 11 日舉行的雲峰會上發布大模型進展。

在百度開始文心一言內測前，百度創始人兼 CEO 李彥宏每晚和項目團隊開會，他們為籌備產品甚至一度睡在公司。

騰訊和華為管理層也公開表達了對大模型的重視。3 月底，騰訊總裁劉熾平在財報電話會上說，生成式人工智能可成為騰訊已有業務，如社交、遊戲的“倍增器”，也可幫助開拓數字助手、搜索等新增長線；騰訊正在加速推進大模型“混元”。

華為創始人任正非 3 月中旬參加華為“難題揭榜火花獎”頒獎座談會時稱，華為會做底層算力平台：“未來 AI 大模型會風起雲湧，不只微軟一家。ChatGPT 把計算、管道流量撐大，華為的產品就有了機會。”

中國互聯網和科技行業，很久沒有像這樣同時瞄準一個目標了。即使是疫情前各公司密集進入，押注重金的社區團購買菜業務，也沒有如今的景象。

除上述最被關注的公司外，從 GLUE（通用語言理解測評）、CLUE（中文語言理解測評）榜單看，快手、美團、京東等互聯網公司，科大訊飛、商湯等人工智能公司，和 OPPO、vivo 等智能硬件公司也都發布了自己的大模型。

沒有猶豫的時間，共識很快達成。與過去更多處理特定任務的人工智能不同，以大模型為基礎的人工智能要通用得多，它既可以幫你列出採訪馬斯克的問題，也能給出一份能源市場分析框架，僅靠簡單的語言描述，它就能生成一幅奇幻風景或 logo 設計草圖，甚至是動態視頻。

在前沿技術的跨國流通不再那麼通暢的今天，中國市場需要自己的大模型。能提供本土最好大模型的公司，會獲得極高商業回報。這一新技術可能很大程度改變人們獲取信息（搜索）、與人互動（社交）、創造內容（遊戲、短視頻、知識工作等）的方式與效率。

OpenAI 並未公布過訓練 GPT 系列模型的成本，據估算，即使是三年前訓練 GPT-3 時，花費也高達上千萬美元。大公司更有資源跟進這一高門檻方向，但他們也需要解決一連串大公司轉身時的挑戰，其中很多不僅關於技術。

一個共識：同時做模型層和產品層

已相對清晰的是，多數中國大公司都在同時做大模型和基於模型的應用。這是在跟隨 OpenAI 的實踐。

ChatGPT 本身是一個應用層產品，它背後是 OpenAI 自 2018 年陸續推出的 GPT（Generative Pre-trained Transformer）生成式語言大模型系列。後者是前者的技術底座和能力支撐，前者為後者持續提供用戶反饋與新數據。二者構成一個循環飛輪。

具體應用方向上，綜合公開報道和我們了解的信息。字節將在抖音、TikTok 搜索和圖片/視頻生成方向發力。字節可能會在抖音、TikTok 中推出類似微軟問答搜索引擎 New Bing 的功能。圖片/視頻生成則主要服務字節商業化需求，以幫助字節廣告客戶更方便、低成本地製作視頻。一位字節人士稱，字節廣告客戶投放總成本里有 10%-20% 為視頻製作成本，從去年開始，字節已在開發一些相關產品幫廣告客戶壓縮這部分投入。

去年 6 月騰訊發布混元大模型時稱，混元已被用來理解廣告內容，以幫助更精準地把廣告投放給特定人群，該模型也已在向廣告主提供圖像、視頻生成能力。微信搜一搜功能今年也已應用了混元大模型，讓搜索結果的相關性排序變得更準確。

微信去年 10 月也推出了數百億參數的通用語言大模型 WeLM，有續寫故事、翻譯、扮演角色的能力，比如你可以通過 WeLM 問馬斯克，收購了 Twitter 后他準備怎麼干。

阿里可能會結合雲、電商場景，推出基於大模型的一些新服務或功能。大模型與雲的結合思路與百度類似。電商的以文搜圖找產品、精準推薦、數字人直播、店鋪廣告物料生成和產品內容生成等流程上都有大模型和生成式 AI 技術的用武之地。阿里智能音箱天貓精靈近期也在做技術測試，接入了大模型能力以實現更好的多輪對話效果。

阿里還在研發類似 ChatGPT 的對話機器人產品形態，3 月底已對員工開放內測。一名參加測試的阿里人士稱，它的運算能力還比較差，會算錯個位數加減乘除，整理周報時會自己生成幾條原周報里沒寫的事。據了解，下周舉行的阿里雲峰會上可能會公布相關進展，該產品不會直接 to C，測試對話形態主要是為了讓企業客戶體驗產品能力。

百度的大模型目前的內部應用方向有搜索、雲服務、小度智能音箱和智能交通/自動駕駛等。搜索產品形態可能也類似 New Bing；百度智能雲預計未來會開放大模型 API 接口，以幫助合作夥伴搭建具體應用，或直接提供一些打包好的 SaaS 產品；在智能交通上，百度地圖本周推出的新版本中已嵌入了文心大模型能力，百度稱新版本可優化交通調度效率，還能讓地圖更好地理解用戶發出的指示，節省溝通時間。

阿里和百度都已在建設大模型生態，即以雲平台輸出模型能力，支撐更多應用生長。阿里在去年的雲棲大會上提出了 MaaS（模型即服務，Models as a Service），李彥宏在半個月前發布文心一言時也提及了這一概念。阿里去年 11 月初推出模型社區“魔搭”，上線時彙集了達摩院的 300 多個開源模型。百度在其深度學習框架飛槳平台中設置了供開發者調用的“模型庫”。

字節跳動：今年初組建團隊，橫跨多國、多部門

沿着 OpenAI 蹚出的路，同時做模型和應用的中國各科技公司均拉出了多部門協作陣容：由有資深人工智能背景的技術高管領頭模型層開發，同時調集產品團隊支持基於模型的應用。

字節今年初才開始組建專門的大模型團隊。但集結頗為迅速，參與部門眾多，國內國外均有分佈。

這之前，字節於 2021 年底調整組織架構，分立六個事業部（抖音、大力教育、飛書、火山引擎、遊戲和 TikTok）；同時保留了獨立於業務的中台技術部門，做通用底層技術；另有一些技術團隊分流到了不同事業部，彙報給事業部負責人。

據《晚點 LatePost》了解，目前參與字節大模型的技術負責人有朱文佳、項亮、李航等，他們分屬字節多個部門。

其中朱文佳是字節大模型的第一負責人。他是 TikTok 產品技術負責人，字節搜索部門也向他彙報。字節大模型的主要應用方向之一即是優化抖音或 TikTok 的搜索。

項亮為技術中台下的 Data-AML（數據 – 應用機器學習）負責人，他是推薦算法的重要貢獻者。AML 近期新成立了一個與大模型有關的項目 ByteBM。去年離開阿里巴巴達摩院，后加入字節跳動的楊紅霞即在項亮團隊。她曾擔任達摩院資深算法專家，是阿里 2021 年發布的多模態大模型 M6 的核心技術人員之一。

李航是字節 AL Lab（人工智能實驗室）總監，他曾擔任華為諾亞方舟實驗室主任和首席科學家，2017 年加入字節，研究方向包括信息檢索、自然語言處理、機器學習、數據挖掘等。AI Lab 旗下 NLP（自然語言處理組）組也在參與大模型開發，直接負責人為陳家澤，他 2017 年從北大計算機系碩士畢業后加入字節任算法工程師。

一位字節人士評價，從學術研究到業務落地的光譜上，李航在最左端，中間是項亮，最右是朱文佳，他有“綜合的工程和技術管理經驗”。

朱文佳 2015 年加入字節，這之前他在百度擔任搜索部主任架構師，研究方向為推薦算法。2019 年，朱成為今日頭條 CEO，2021 年 2 月，調任為 TikTok 產品技術負責人。

在產品與應用上，字節在 2019 年推出了巨量創意平台，可以幫廣告客戶製作視頻內容，降低製作門檻和成本，大模型會進一步提升內容生成的質量和效率。該平台隸屬字節商業化產品與技術團隊，總負責人為劉小兵，他曾任谷歌大腦軟件工程技術負責人，2018 年加入字節。

字節參與大模型的團隊分佈在多個國家，朱文佳的團隊在新加坡，項亮團隊在美國西雅圖，李航領導的 AI Lab 在北京。

大模型是中美兩國政府關注的人工智能前沿技術，它的發展也離不開高端計算芯片和海量數據。未來字節將如何安排大模型團隊的中美分佈和分工還不確定。

百度、阿里、騰訊：首席科學家挂帥，過去數年經歷人才流失

百度、阿里、騰訊的大模型團隊，均由集團內技術一號位或首席科學家負責。

在 ChatGPT 引發的熱潮前，這 3 家公司均已發布過大模型：

百度於 2019 年推出 ERNIE 1.0，即後來的文心大模型，目前已更新到 3.0 版本；

阿里於 2021 年連續發布語言大模型 Plug（后更名為 AliceMind）和多模態大模型 M6，去年 9 月，兩個大模型合併為阿里通義大模型；

騰訊在 2022 年 6 月發布混元大模型，目前更新至 2.0 版本。騰訊微信團隊去年 10 月也發布了大模型 WeML。

綜合此前報道和我們了解的信息。百度大模型的開發由百度 CTO 王海峰領銜，他也是文心一言產品的第一負責人。王海峰之下，百度集團副總裁吳甜的團隊是開發自然語言處理技術的主要團隊。吳甜於 2006 年加入百度，2010 年進入自然語言處理部，2020 年升任副總裁，整體負責百度 AI 技術平台和智能雲 AI 產品。

阿里達摩院自 2020 年初開始同時研發多模態大模型和語言大模型，目前阿里的大模型研發仍放在達摩院，負責人為阿里雲智能 CTO 周靖人。他畢業於中國科學技術大學，獲哥倫比亞大學計算機博士學位，曾任微軟前研發合伙人，2016 年加入阿里，任阿里雲首席科學家。

具體參與大模型開發的是達摩院 AI 團隊，包括當年推出 M6 的達摩院旗下智能計算實驗室和推出 AliceMind 的語言技術實驗室。其中智能計算實驗室主任為周靖人本人，語言實驗室現主任為黃非，他向周靖人彙報。黃非畢業於卡耐基梅隆大學計算機學院，2018 年加盟達摩院，曾在 IBM 和 Meta 研發自然語言處理技術。阿里兩個實驗室目前共有約百名研發人員參與大模型開發。

騰訊則在 2023 年初組建了混元助手項目組。據《36 氪》報道，該項目由騰訊最高級（17 級）研究員、騰訊首席科學家張正友負責，其下有數名產品經理和組長參與，他們來自騰訊不同的事業群，包括技術工程事業群（TEG）、平台與內容事業群（PCG）和雲與智慧產業事業群（CSIG）等。跨事業群開發具體產品在騰訊相對少見，這側面反映了管理層對大模型的重視。

相對獨立的微信團隊，也開發了自己的大模型，即 WeML。據項目官網，其最新更新日期是去年 10 月。騰訊在大模型上是否也會進行多團隊“賽馬”還不確定。

百度、阿里、騰訊都集結了公司最好的技術力量投入大模型，不過他們過去幾年流失了一些重要的人工智能人才。

騰訊大模型負責人張正友專長於機器人，他於 1998 年提出“張氏標定法”，在機器人控制領域影響深遠。他最初加入騰訊時擔任機器人實驗室 RoboticsX 負責人。大模型則更多與自然語言處理技術有關。

騰訊本有張潼坐鎮這一方向，他在 2017 年春加入騰訊擔任 AI Lab 主任。張潼是機器學習領域專家，擁有斯坦福大學計算機碩士、博士學位，曾任美國新澤西州立大學終身教授，IBM 研究院研究員和雅虎研究院主任科學家，研究領域包括計算機視覺、語音識別、自然語言處理和機器學習等。

2018 年 12 月，張潼離開騰訊重返學界，加入香港科技大學，張正友接任 AI Lab 主任。2019 年 – 2021 年，離開騰訊的人工智能專家還有騰訊優圖實驗室前聯合負責人賈佳亞，騰訊原副總裁、AI Lab 創始人姚星等，他們都選擇了創業。

阿里達摩院近年也有多位科學家離開。據《晚點 LatePost》了解，與大模型直接相關的離職人員除已加入字節的楊紅霞，還有去年離職的原語言技術實驗室主任司羅，他是阿里兩年前啟動語言大模型 Plug（AliceMind）時的具體負責人。司羅擁有卡耐基梅隆大學計算機博士學位，曾任美國普渡大學計算機系終身教授，2014 年加入阿里擔任 iDST（數據科學與技術研究院）NLP 團隊負責人。

2020 年以來，達摩院還有原副院長金榕，兩任自動駕駛負責人王剛、陳俊波等人工智能技術專家離開，金榕加盟推特擔任研發 VP，后兩者選擇創業做清潔機器人。

百度是所有中國互聯網大公司里，投入人工智能歷史最久、曾經的人才陣容也最豪華的公司。自 2013 年百度在美國硅谷建立百度美研到 2017 年間，斯坦福人工智能實驗室主任吳恩達、微軟亞洲研究院院長張亞勤、微軟全球執行副總裁陸奇等人先後加入百度。他們待的時間都不長，在 2018 年前後陸續離開。

一個有趣的交集是，OpenAI CEO 山姆・阿爾特曼（Sam Altman）從斯坦福退學前，曾在吳恩達管理的人工智能和機器人實驗室工作過。

百度還是字節人工智能人才的重要來源。字節的技術負責人楊震原，目前大模型的負責人朱文佳，向朱文佳彙報的搜索負責人喬木均曾就職於百度。

在如今的大模型熱潮下，大公司人才還會被創業潮分流。近期離職的大公司技術高管有阿里達摩院技術副總裁賈揚清，騰訊副總裁、平台與內容事業群（PCG）信息與服務線負責人郄小虎、京東首席科學家陶大程等。

賈揚清 2019 年加入阿里前任職於 Facebook，是知名 AI 框架 Caffe 的核心作者，他將在 AI 框架方向創業。郄小虎於 2020 年 9 月加入騰訊，任公司副總裁，負責 PCG 技術線，騰訊工作期間郄小虎參與了圖像感知、視頻文本檢索等技術研究；陶大程是計算機視覺領域的專家之一，2021 年加入京東前，他曾在香港理工大學和新加坡南洋理工大學等高校任教。兩人接下來的計劃暫不清楚，創業是選項之一。

華為是另一家較早推出大模型的中國公司，於 2021 年發布盤古大模型。具體負責人為 2020 年 3 月入職的華為雲首席科學家田奇，他此前是美國得州大學聖安東尼奧分校計算機系教授。通過華為 Mindspore AI 框架平台，華為還和中科院、鵬程實驗室等機構聯合開發了多個大模型，包括蛋白質結構預測大模型“鵬程・神農”，支持圖像生成的多模態大模型“紫東・太初”等。

算力和數據：過去有儲備，未來面臨不確定

清晰合理的戰略目標，合適的團隊與人才外，一家公司能否在大模型上有所建樹，還取決於兩個關鍵資源：算力和數據。

總體而言，中國公司過去兩年的雲計算、數據中心等算力基礎設施開支小於美國大公司。不過就存量看，中國大公司過去有一定算力儲備。

目前用於訓練大模型的主力芯片是英偉達雲端訓練 GPU A100。據《晚點 LatePost》了解，字節跳動朱文佳團隊目前可使用的 A100 約有數千張。為支持大模型開發，字節今年早些時候還將原本計劃給商業化團隊新增的一批 A100 調給了朱文佳團隊。A100 目前的市價約 10 萬元人民幣/塊，數千張 A100 的價值達數億元人民幣。

阿里 2021 年時曾披露，在訓練十萬億參數的多模態大模型 M6 時，它們使用了 512 張英偉達 V100 GPU。它是 A100 的前序產品，A100 有大約 3 倍的性能提升。

華為在 2021 年曾披露，訓練盤古大模型時，團隊調用了超過 2000 塊華為昇騰 910，進行了超 2 個月的訓練。不過昇騰 910 最初設計為 7 nm 製程，2020 年 9 月後，台積電等芯片代工廠不再能為華為生產高製程芯片。

一位關注大模型領域的投資人稱，阿里、騰訊、百度、華為等國內主要雲廠商過去都積累了大量 GPU。去年大模型熱潮未起時，公有雲上的 GPU 算力不是緊缺，而是“愁賣”，雲廠商甚至得虧錢賣資源，並與部分公司簽訂了長期鎖價合同，這讓熱潮前就已入場的一些大模型創業公司“花更少錢辦了更多事”；也側面說明大廠有一定算力儲備。

但再往下，所有中國公司在獲得更多算力上都面臨不確定性。更多人訓練大模型也會進一步加劇算力緊缺。

去年 8 月底，美國政府宣布禁止美國公司向中國大陸、香港和俄羅斯出口高端 GPU，設定的紅線是：算力超過 4800 TOPS，且帶寬傳輸速率超過 600 GB/秒，受限產品就包括英偉達 A100 和後續產品 H100。

為繞過這一限制，英偉達推出了 A800，算力與 A100 一致，但傳輸速率降為 400 GB/秒，不在被禁範圍。不過這條路仍有變數。美國政府的系列禁令明確指向人工智能，不排除後續有超出預期的更嚴厲措施。

大模型的訓練還需要海量數據。一種觀點是，中文數據在數量和深度上均不及英文，所以中文大模型相比國外大模型“先天不足”。

英語是強勢語言，除文本量最大外，大量學術論文、專業文獻也以英語撰寫，高質量的公開英語數據庫也更多。英語數據的廣度與深度確實強於其它語言。

但數據對模型效果的影響是一個更複雜的問題。包括 GPT 系列大模型在內，主流大模型都基於最早由 Google 研究人員提出的 Transformer 架構，它會對不同人類語言，包括編程語言做高度抽象和壓縮，這些語言在底層邏輯上有相似性，中文數據的不足可以部分由其它語言數據彌補。

大模型創業公司瀾舟創始人、微軟亞研院原副院長周明說：“現在的中文大模型都是在用多語言訓練，語言結構有共通性，一件事如果英語表達得更好，中文也可以借鑒，形成生成結果。”

大公司的數據相比創業公司還有額外優勢，他們能獲得一些非公開的高質量中文文本數據。部分數據還帶有真實的場景屬性，如電商平台中的客服溝通數據。

如果把這一波浪潮比喻為大航海，OpenAI 是第一個到達新大陸的人，它已完成了最危險、最不確定的部分，即證明了超大參數模型的可行性和驚人效果。其它公司都是在沿着這個相對確定的方向做復現和優化。李彥宏在發布文心一言后曾說百度有信心在綜合能力上，迅速追上甚至超過 ChatGPT。“很快”可能很難實現，但把時間拉長，學習與模仿將拉平一批公司間的差距。

變數在於：中國公司未來可能無法通暢地獲得更多算力，技術與人才的跨國流動也在變慢，招募更多大模型高端人才變得更難了。

成為中國第一的吸引和被顛覆的危險

宏觀環境變化的另一面是，在中美市場更加分隔的當下，中國需要自己的大模型。中國市場又尚未出現明顯的領先者，這使各大公司加速入場。

一位字節人士稱，在去年底 ChatGPT 出現前，字節對大模型投入還比較少。表現之一是，約有 100 人的字節 AI Lab NLP（自然語言處理）組，只有不到 10 人在研究語言大模型，其它人主要在做翻譯和抖音小安（內置於抖音的安全助手，有預防網曝、網絡詐騙的功能）的優化。但今年 1 月後，大模型迅速成為 NLP 組重點工作。字節 AI Lab 可能會基於人工智能創業公司 HuggingFace 去年 7 月開源的大模型 BLOOM 做開發，它的參數達到 1760 億，是目前最大的多語言開源語言模型。

這是低迷兩年的互聯網市場一個難得的增量空間，如果能在中國市場做到第一，就可能開闢巨大的新市場，或給已有業務，如雲計算、遊戲、社交等加上“放大器”。

緊迫也來自，如果大公司自己不做，就有被顛覆的風險。

以利益分配結果看，技術創新有兩種，一種果實多歸屬成熟公司，一種則會激發一批新巨頭。

由 AlphaGO 戰勝李世乭引燃的上一輪 AI 熱潮更靠近第一種。當時的人工智能技術雖然在識別圖片、人臉等一些特定任務上有高效率和準確率，但應用場景有限，且當時的產品不夠強大和通用，沒有好到足以動搖成熟企業已建立的市場格局。一個例子是，商湯、曠視等人工智能新銳公司在它們最主要的市場安防領域，難以撼動海康、大華的優勢地位。

大模型則有可能是第二種創新。ChatGPT 和其它生成式 AI 產品及背後的大模型技術，迅速展現出了衝擊現有商業模式的力量。

文生圖應用 Midjourney 去年已獲得超 1 億美元收入，這家公司到去年 10 月只有 10 余名員工。在微軟搜索引擎接入 GPT 推出 New Bing 后，Bing 訪問量上升了 15.8%，Google 搜索引擎的美國市佔率則下降了 1%。上周微軟宣布 Bing 日活躍用戶首次突破 1 億，其中 1/3 是新用戶。

當技術槓桿足夠強時，大公司面對新機會時的包袱和協調難題就變得更為明顯：

這包括與主營業務的衝突，Google 在搜索引擎上引入大模型時的猶疑是一個前例，各公司需要在以新技術打造全新產品，和用新技術提升現有業務間做綜合安排與取捨。再往下是如何建立相應組織結構和多部門協作機制。相比沒有退路的創業公司，當大模型商業進展遇挫時，業務頗多的大公司的熱情能持續多久也是問題。大公司還面臨更強的監管與倫理風險，大模型可能帶來虛假信息和“不正確”的言論，亦有隱私問題，各國監管已在更早、更多地干預。部分國家已禁用 ChatGPT。

中國大公司發布的基於大模型的文本生成類應用，目前均未直接向普通民眾大規模開放。文心一言需要內測碼才能使用，阿里、騰訊和字節，近期可能都不會發布基於大模型的 to C 對話類產品。

巨頭有更多的錢和資源，但當機會足夠大，改變足夠劇烈時，資源往往不是最難的部分。

本文鏈接：https://www.8btc.com/article/6812498

轉載請註明文章出處