智源AI研究院回應大模型論文學術爭議

“我們已經注意到對《A Roadmap for Big Model》一文的質疑，正在對相關情況進行核實，智源研究院鼓勵學術創新和學術交流，對學術不端零容忍，有關進展將儘快通報。”4月13日，北京智源人工智能研究院回復谷歌大腦(Google Brain)的著名科學家Nicholas Carlini對一項中外合作大型學術論文涉嫌剽竊的指控。

此前4月8日，Nicholas Carlini公開撰文，指控一篇於今年3月26日刊登在論文預印網站Arxiv的論文《關於“大模型”的路線圖》（“A Roadmap for Big Model”）一文涉嫌嚴重抄襲。

該文是前不久國內外多家高校和企業共同完成的長達200頁的學術綜述論文，有多達100名作者，分別來自於清華大學、北京大學等國內高校，哥倫比亞大學、蒙特利爾大學等國外高校，字節跳動、華為、京東、騰訊等企業以及中科院和北京智源等機構。

Nicholas Carlini在文章《機器學習研究中的一個抄襲案例》（“A Case of Plagarism in Machine Learning Research”）中則詳細列舉了該論文存在大段抄襲其他論文的嫌疑，證據是大規模的文本重疊，疑似被剽竊的論文也包括他自己的論文“Deduplicating Training Data Makes Language Models Better”。

Nicholas Carlini在文章中解釋，他們是在閱讀這篇論文時發現很多語句都非常的熟悉，然後通過使用論文查重工具發現了更多的證據，進而準確定位《關於“大模型”的路線圖》論文中和已有論文中存在剽竊嫌疑的文本內容。

澎湃記者發現，這篇被質疑的論文目前已經被其發表網站Arxiv在頁面上備註了該文和Nicholas Carlini的論文有“文本重疊”（text overlap）。

此前3月31日，北京智源社區撰文以《如何煉大模型？200頁pdf100+位作者19家單位！北京智源清華唐傑等發布》介紹該篇論文：

“隨着以深度學習為代表的AI技術的快速發展，智能模型的訓練應用模式逐漸由‘大煉模型’向‘煉大模型’轉變。大模型研究在近年來發展迅速，模型的參數量以驚人的速度擴展。北京智源人工智能研究院最近發布的《A Roadmap for Big Model》由悟道大模型研究項目負責人，智源學術副院長，清華大學計算機系教授唐傑牽頭，從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索4個層面出發，對15個具體領域的16個相關主題進行全面介紹和探討。非常值得關注。”

《關於“大模型”的路線圖》中的研究主體“大模型”是近幾年人工智能的熱門關注領域。人工智能發展到今天，GPT和BERT等參數量巨大的模型被人們開發出來，他們在計算機視覺和自然語言處理等領域取得了前所未有的成就。同時，因為大模型參數量巨大，最近學術界開始將它們當作一類特別的人工智能模型進行研究。

在一篇去年發布的，由斯坦福教授李飛飛等領銜的約百名作者署名論文將此類模型稱為“基礎模型”（Foundation Model），這篇由清華主要參與的論文關注與此相同含義的“大模型”（Big Model）的未來研究路徑。在清華的論文中，作者們介紹到“之前論文提及的’基礎模型’在中文語境中也被稱為‘大模型’”（“The mentioned foundation model is known as the BMs, and it is called Big Model in the Chinese context.” ）。