百度被網暴，AI大模型“套皮”海外知名項目，百度首次回復：假的！

圖片來源：無界AI畫繪畫工作生成

3月16日，百度創始人李彥宏做了大語言模型“文心一言”的發布會。

結果，觀眾只記住了白襯衫和白腰帶，並且紛紛表示好奇，李彥宏保養的不錯。然後感慨，Robin Li與其分享百度雄心勃勃的語言大模型，不如講一講如何保養，搞不好還能帶個貨，股價也許就上去了。

雖然，網絡上鍵盤俠吐槽很多，但還是有很多媒體寫到：《中國百度硬剛chatGPT，國產之光》。沒辦法，AI這個領域，好像只有百度能打，起碼，大部分公眾的認知是這樣。

如果說16日發布會後公眾的態度是希望百度扛起對線chatGPT的大旗。這兩天，畫風變了，吐槽排山倒海而來，可以說是怒其不爭了。

首先是一批圖片，顯示文心一言理解能力很差。

另外，還有一批圖片，更是把文心一言給狠狠錘了一把。大意是說，文心一言更懂英文，不懂中文。直言百度作假，文心一言是套殼了chatGPT，水貨。

那麼，真的是這樣子嗎？

百度文心一言被爆錘，國產都不行？

微博賬號“劉大可先生”錘百度的文字被傳播得很廣，光點贊就有2.2萬。

他是這麼說的：百度這個所謂的人工智能，其實就把中文句子機翻成英語單詞，拿去用國外剛剛開源的人工智能“Stable Diffusion”生成了圖畫，再返回給你，說是自己畫的。

他給出的理由有很多，這裡僅舉一個例子。

上圖，“劉大可先生”的要求是畫“雲中的平面”，結果文心一言畫了個飛機，“劉大可先生”說，這是因為“雲中的平面”機翻之後是“plane in cloud”，所以文心一言背後的英語的人工智能當然會畫個飛機。

下面這張圖在社交網絡傳播非常廣，揭示的“真相”與上文是一樣的。

自從chatGPT誕生后，以及包括一系列AI畫圖軟件，像Stable-Diffusion、Midjourney、DALLE等誕生以來，我們其實看到了很多的應用，底層都是這些開源的模型。但是通過“漢化”，可以給中國的用戶帶來很好的體驗。

百度的文心一言是不是也這樣？這個“判斷”可能是武斷的。

2月20日晚間，復旦大學邱錫鵬教授團隊發布國內首個類ChatGPT模型MOSS，但是很快就被吐槽，它的中文水平不如英文。

3月30日，阿里達摩院低調地在魔搭社區（ModelScope）放出了“文本生成視頻大模型”。結果，這個大模型也是更懂英文，有體驗者寫到，他輸入提示詞：A panda eating bamboo on a rock。77秒后，大模型給出了一個2秒的熊貓吃竹子視頻。如果換成中文：一隻大熊貓坐在岩石上吃竹子。出來的結果就是一隻類似於貓咪的小動物。離題萬里。

中文數據天生缺陷？

為什麼會這樣呢？

在微博賬號“劉大可先生”爆錘百度的微博文字下面，第一個留言的名叫“歐陽少慳"，他說，文心一言出現這種情況的因為在於，目前開源的圖文數據大部分是英文的，可以參考LAION這個開源數據庫，所以目前的diffusion model基本都是英文驅動，這也導致了“劉大可先生”說的怪異現象。

“當然，我們期待同等規模的中文開源數據庫的出現。stable diffusion是一種網絡結構，開發者完全可以使用LAION數據集和sd結構訓練一個自己的網絡，不需要套皮。”他說。

23日中午，百度官方公眾號發了一則聲明，寫到：“文心一言完全是百度自研的大語言模型，文生圖能力來自文心跨模態大模型ERNIE-ViLG。在大模型訓練中，我們使用的是全球互聯網公開數據，符合行業慣例。大家也會從接下來文生圖能力的快速調優迭代，看到百度的自研實力。”

有從業者稱，這基本等於承認使用了LAION。LAION，這是目前最為知名的大規模圖文多模態數據集。作為一個非營利性組織，LAION提供數據集、工具和模型來解放機器學習研究。官網寫到：我們通過這樣做，鼓勵開放的公共教育，並通過重用現有數據集和模型來更環保地使用資源。

從這個角度理解，說文心一言“套皮”或許還是比較武斷的。到底是不是“套皮”，或者百度的語言大模型在技術上有沒有參考海外項目？我們還要等待更多的來自行業的披露信息。

但是，這個事情從側面肯定能說明一個問題，雖然，我們一直強調中國有海量的數據，但企業的實踐卻表明：不好用。

復旦MOSS大模型被質疑中文水平不如英文時，MOSS研究團隊就坦承，“MOSS的英文回答水平比中文高，因為它的模型基座學習了3000多億個英文單詞，中文詞語只學了約300億個。”

而澎湃新聞採訪了粵港澳大灣區數字經濟研究院（IDEA）認知計算與自然語言中心文本生成算法團隊負責人王昊，他說：“數據質量的差別是主要瓶頸之一。相較於英文數據，中文數據的開源程度較低，導致中文數據集的規模相對較小。此外，英文作為科研主流語言，在學術界和工業界中得到廣泛應用，積累了大量高質量的語料數據，這為英文自然語言處理的研究提供了極大的優勢。”

有一個數據很現實：雖然簡體中文互聯網用戶和英文互聯網用戶規模相當，但在全球排名前1000萬個網站中，英文內容佔比60.4%，中文內容佔比僅為1.4%。

這會是中國企業探索大語言模型的問題和瓶頸嗎？可能也不是。或是觀念，尤其是意識形態的阻礙更大。

中關村新場景MA Club發起人檀林在一次分享中質問：“做一個中國的大語言模型，自己給自己砌一道牆，和全球分開。就像做一個純中文的操作系統一樣，能有多大的意義？大家都知道，簡體中文的數據質量很差，語料庫的知識含量和價值已經比海外的幾個大語言模型要低得多了，所以如果現在還非要給自己一個束縛的話，我覺得這種態度在開局就輸了。”

中國企業要想在大語言模型的賽道分一杯羹，蹚出一條路，使用英文數據是不得已，沒辦法。當然，我們顯然更期待中文數據領域能有更好的發展。

本文鏈接：https://www.8btc.com/article/6810624

轉載請註明文章出處