復旦博導李直旭：如何走向AGI？大模型與知識圖譜的競合新模式

來源：知識工場

作者：李直旭

原標題《一家之言丨AIGC時代的多模態知識工程思考與展望》

李直旭，復旦大學研究員、博士生導師，上海市數據科學重點實驗室主任助理，復旦大學知識工場實驗室執行副主任，曾兼任科大訊飛蘇州研究院副院長，博士畢業於澳大利亞昆士蘭大學。主要研究方向為認知智能與知識工程、多模態知識圖譜、大數據分析與挖掘等。在領域主流期刊和國際會議上發表論文150餘篇，主持十餘項國家和省部級科研項目。

內容簡介：ChatGPT的火爆出圈使得AI生成（AIGC）技術受到了全社會前所未有的廣泛關注。此消彼長之下，傳統的知識工程遭受了諸多質疑。在多模態智能領域，AIGC的能力不斷提升，多模態知識工程工作應該何去何從？是否仍有價值？在本次分享中，講者將探討當前AIGC技術耀眼“光芒”背後的“暗面”，思考與展望AIGC時代的多模態知識工程研究。

關於AIGC時代的多模態知識工程思考與展望，我們將從以下六個方面展開介紹：

第一部分，我們回顧一下AIGC技術的發展歷程和它帶來的劃時代影響力；

第二部分，我們對AIGC技術的不足（阿克琉斯之踵）之處進行分析與總結；

第三部分，我們將介紹多模態認知智能的框架和兩種實現路徑，並進行對比分析；

第四~六部分，我們會展望當前AIGC大模型和MMKG多模態圖譜間如何競與合。

01、AIGC時代：未來已來

隨着人工智能總體階段的發展，生成式人工智能技術（AIGC）也在不斷迭代。從20世紀50年代到90年代中期，是AIGC的早期萌芽階段，這一時期受限於技術水平，AIGC僅限於小範圍實驗。這一時期的AIGC典型事件包括：1950年，艾倫·圖靈提出的著名的“圖靈測試”，給出判斷機器是否具有“智能”的方法；1966年，世界上第一款可人機對話機器人“Eliza”的問世；以及在80年代中期IBM公司創造的語音控制打字機“Tangora”的出現。

而從20世紀90年代到21世紀10年代中期，AIGC處於沉澱積累階段，這一階段的AIGC技術從實驗性向實用性轉變，但仍因受限於算法瓶頸，無法直接進行內容生成。這一階段的AIGC典型事件則包括2007年世界上第一部完全由人工智能創作的小說《1 the road》的問世；以及2012年微軟開發的全自動同聲傳譯系統的出現，它能夠將英文語音自動翻譯成中文語音。

自21世紀10年代中期至今，是AIGC快速發展的階段，得益於深度學習算法不斷迭代，人工智能生成內容百花齊放。2014年，Goodfellow提出的生成對抗網絡GAN用於生成圖像；2019年，英偉達發布StyleGAN模型可以自動生成高質量圖片；2019年DeepMind發布DVD-GAN用於生成連續性視頻，直到2022年，OpenAI發布ChatGPT模型生成流暢的自然語言文本。

可以說，ChatGPT的爆紅出圈宣告了AIGC時代的到來。

現在的AIGC技術可以生成的內容包括文本、圖像、音頻和視頻等。如今，已經有很多強大的算法被發明出來，如用於圖像生成的Stable Diffusion算法。此外，還有很多走在技術前沿的創業公司不斷推動AIGC技術的應用落地，如Jasper AI的AI寫作軟件和midjourney的AI繪畫工具的發明都在解放着人類的內容創作生產力。這些共同促進了一個萬物皆可AI生成的AIGC時代。

右圖是一張來自互聯網的趣味圖片——機器人一家三口在人類博物館中觀賞人類的最後一篇推文“GPT-5也沒啥了不起的”——表達了創作者對當今AIGC技術飛速發展的隱隱擔憂。

那麼，我們首先看一下多模態大模型的分類與發展脈絡。如上圖所示，多模態大模型發展非常迅速，我們可以將多模態大模型簡單分為多模態統一大模型和多模態文圖生成大模型，前者用於統一的多模態生成和理解，後者特指具備強大的多模態文到圖生成能力的大模型。

當前，文圖生成大模型已經可以生成逼真、高清以及風格化的意境圖像。

還有一些文圖生成大模型，如斯坦福大學提出的ControlNet，其生成能力更加精緻、可控。它不僅可以生成各類質地細膩、細節精緻的圖片，也可以通過簡筆畫來對圖像生成進行操控。

AIGC大模型生成的視頻在某種程度上也可謂自然流暢、栩栩如生。

我們還看到Google發布的PaLM-E模型，展現了多模態AIGC大模型驅動的具身智能的情景。這個具備5620億參數的具身多模態大模型，可以將真實世界的傳感器信號與文本輸入相結合，建立語言和感知的鏈接，可以用自然語言操控機器人完成操作規劃、視覺問答等任務。

AIGC的驚艷效果不禁讓很多人對符號主義（知識工程）的研究產生了疑問。Rich Sutton在著名文章《苦澀的教訓》中提出，唯一導致AI進步的因素是更多的數據和更有效的計算。而DeepMind的研究主任Nando de Freitas也宣稱，“AI現在完全取決於規模，AI領域更難的挑戰已經解決了，遊戲結束了！”。我們也看到，在大多數領域，大模型已經（暫時）戰勝了精心設計的知識工程。然而，AI的流派之爭真的結束了嗎？

02、AIGC的阿克琉斯之踵

第二部分，讓我們來看一下當前AIGC大模型實際存在的一些問題。

儘管今天的ChatGPT（包括GPT-4）很強大，它的諸多問題仍舊難以忽視：

第一、強語言弱知識的問題，ChatGPT無法理解用戶查詢中的知識性錯誤，它具備強大的語言能力，但知識能力仍舊較弱；

第二、實時信息自更新慢，新舊知識難以區分，目前ChatGPT的知識還停留在2021年，而每一次信息更新都需要成本高昂的重新訓練；

第三、其邏輯推理能力並不可靠，應該說尚不具備複雜數學邏輯推理與專業邏輯推理能力；

第四、由於缺乏領域知識，它也無法真正為領域類問題提供專業靠譜的答案。

當前的多模態大模型的跨模態生成能力也尚不完善。上圖是我們用文圖生成大模型Stable Diffusion生成的一些案例。具體來說，當前的文圖生成存在組合泛化、屬性泄露、方位理解混亂、語義理解錯誤等問題。因此，儘管我們看到AIGC跨模態生成的視覺效果驚艷，但往往存在較大的模態間信息不對稱問題。

此外，當前多模態大模型的多模態理解能力也存在問題。上圖是來自BLIP2進行視覺問答任務的錯誤樣例。我們看到：

1）模型由於缺乏事實知識，無法知曉球拍上的“w”圖案是品牌“Wilson”的logo，因而錯誤回答成“nike”；

2）模型由於欠缺邏輯推理能力，不理解圖像場景和問題的邏輯關係，因而回答錯誤；

3）模型由於常識儲備不足，對某個具體場景（衝浪）下的意圖理解犯了常識性錯誤。

讓我們再來看一下Google的具身多模態大模型PaLM-E，雖然依賴如此大規模的參數實現了初步的機器人操控，但其demo視頻中所展示的空間範圍、物品種類、規劃和操作任務的複雜度等都非常有限。我們可以想象，如果要在真實世界的複雜場景中達到實用級別，PaLM-E的參數規模是否還需要增大百倍、千倍甚至萬倍？如果一味用海量參數存儲所有知識，那麼智慧湧現的代價是否過於昂貴？

至此，我們對多模態大模型做個簡單的小結。

首先，多模態大模型的本質是“用語言解釋視覺，用視覺完善語言”。換句話說，我們要將文本中的語言符號知識，與視覺中的可視化信息建立統計關聯。所謂“用語言解釋視覺”，就是將語言中蘊含的符號知識體系和邏輯推理能力延伸至對視覺內容的理解；而所謂“用視覺完善語言”，是指豐富的視覺信息可以成為符號知識體系和邏輯推理能力的重要完善和補充。

我們知道，多模態大模型能發揮重大作用的重要前提是：

1）具有海量高質量圖文配對數據；

2）文字富含事實知識和常識；

3）其邏輯推理過程可顯式化被學習。

而我們所面臨的現實情況卻是：

1）數據量大但質量差，信息不對稱；

2）純文字中的知識與常識也不完備；

3）其邏輯推理是隱性難以學習的。

正因為這些理想與現實間的差距，導致了前面提到的多模態大模型的種種問題與不足。綜上，我們認為，統計大模型始終難以較低成本，全面、準確地掌握人類知識、常識和邏輯推理能力。

03、多模態認知智能

第三部分，我們引出多模態認知智能，其研究旨在解決前一部分提到的問題。

上圖是我們提出的一個多模態認知智能的研究框架。總的來說，多模態認知智能主要研究基於多模態數據的知識獲取、表示、推理與應用。在多模態知識獲取層面，我們從語料中通過抽取、生成、群智等方法獲取知識或者從語言模型中萃取知識。在多模態知識表示層面，可以使用多模態圖譜、常識圖譜、語言模型、大規模知識網絡等方法進行知識表示。基於多模態知識表示，可以進一步支撐多模態理解、推理和元認知等能力，從而賦能諸如跨模態搜索、推薦、問答、生成等多模態知識的應用。

多模態認知智能目前有兩種實現路徑。一種是多模態大模型，其代表了聯結主義和經驗主義的思想，從海量預訓練數據中學習概率關聯，是簡單而魯棒的，它屬於統計學習範疇，具備端到端、干預少和“數”盡其用的優勢，其劣勢在於難以學習到從因到果、從主到次、從整體到部分、從概括到具體、從現象到本質、從具體到一般等邏輯關係。

另一種實現路徑是多模態知識工程，其代表了符號主義的思想，從精選數據和專家知識中學習符號關聯，是精細而脆弱的，它往往通過專家系統和知識圖譜實現，具備易推理、可控、可干預、可解釋的優點，但是它的劣勢主要在於將數據轉換成符號知識的過程往往伴隨着巨大的信息損失，而其中隱性知識等難以表達的知識往往是信息損失的主體。

結合多模態大模型和多模態知識工程的優劣勢分析，我們認為：在AIGC大模型時代，多模態知識工程依然不可或缺。

當前，多模態知識工程的主要形式之一是多模態知識圖譜（MMKG）。多模態知識圖譜是在傳統知識圖譜的基礎上，增加多種模態數據以豐富符號知識表達的方法，其多模態數據包括但不限於圖像、視頻、語言、代碼等。多模態知識圖譜可以將符號接地到具象的視覺等模態對象上，實現跨模態語義對齊。

目前多模知識圖譜的主流形式有兩種。

一種是A-MMKG，其中多模態數據僅作為文字符號實體的關聯屬性存在；

另一種是N-MMKG，其中多模態數據也可作為圖譜中的實體存在，可與現有實體發生廣泛關聯。

至此，我們進一步分析AIGC多模態大模型和大規模多模態知識圖譜各自的優缺點。

多模態大模型的優點是：

1）關聯推理能力強：可以學習掌握大量跨模態知識模式，隱空間的關聯推理能力強，具有很強的泛化能力；

2）多任務通吃：一套大模型處理各類跨模態任務；

3）人工成本低：不依賴人工schema設計與數據標註；

4）適配能力強：可通過調優訓練或prompt對話等方式來適配新的領域和任務。

而其不足之處在於：

1）可靠程度低：所生成的內容可靠性堪憂，存在誤差累積、隱私泄露等問題，無法勝任高精度嚴肅場景需求；

2）知識推理弱：沒有真正掌握數據背後的知識，缺乏知識推理能力，更無因果推理能力；

3）可解釋性弱：雖有CoT加持，但可解釋性仍然不足；

4）訓練成本高：需要消耗大量計算資源和時間來進行訓練，需要強大的計算設備和高效的算法。

而與之對應的，多模態知識圖譜的優點是：

1）專業可信度高：其結構和關係清晰，易於理解和解釋，可為人類決策提供參考，通常為某個具體應用場景構建，可提供更精準和針對性的知識支持；

2）可解釋性好：以結構化形式表示知識，知識的可訪問性、可重用性、可解釋性好，對人類友好；

3）可擴展性強：知識圖譜的內容可以隨着應用場景的需要進行不斷擴展和更新，可以不斷完善和改進。

而多模態知識圖譜的缺點在於：

1）推理能力弱：只能表示已有的知識和關係，對於未知或不確定的領域難以進行有效的知識建模和推理；

2）人工成本高：其構建需要依賴於人工或半自動的方式進行知識抽取和建模，難以實現完全自動化；

3）架構調整難：其基本schema架構通常是靜態的，不易根據新的數據或場景進行修改和調整。

由上分析可見：多模態大模型的優點常常是多模態知識圖譜的不足，而多模態大模型的不足又往往是多模態知識圖譜的優勢。因此，我們認為：當前階段，大模型與知識圖譜仍應繼續保持競合關係，互相幫助，互為補充。

04、AIGC for MMKG

第四部分，我們思考與展望一下AIGC大模型如何輔助MMKG的構建與應用。

第一，AIGC大模型為知識獲取降本增效。

（1）通過知識誘導（萃取），可以快速獲取大量知識或常識。例如，我們可以從語言大模型中誘導語言知識和關係知識；我們也可以從多模態大模型中誘導跨模態對齊知識和視覺常識知識。

（2）AIGC大模型的出現使得零樣本、少樣本、開放知識抽取成為可能。例如，我們可以利用ChatGPT對話大模型的理解和生成能力，從給定文本中抽取三元組知識；我們也可以利用多模態AIGC大模型的跨模態生成和理解能力，從給定圖文數據中抽取多模態知識。

（3）AIGC大模型可以顯著增強垂域多模態知識獲取能力。GPT-4、ChatPDF模型等已經顯示了強大的領域知識抽取能力，如基於多模態文檔的知識抽取。

第二，AIGC大模型助圖譜設計一臂之力。

大模型在部分領域上擁有領域常識知識，可以輔助完成schema的半自動化設計。在多模態場景中，也有一些嘗試，例如可以用多模態AIGC大模型生成cms領域的schema。

第三，AIGC大模型為知識推理保駕護航。

基於大模型的跨模態生成與推理能力，可以輔助完成KG表示學習、圖譜補全等任務。

第四，AIGC大模型為知識融合掃清障礙。

利用大模型的泛化能力和海量知識，可以輔助完成多模態知識圖譜融合。利於對於兩個MMKG的對齊，多模態AIGC大模型在兩者之間可以生成實體知識或語義層面的特徵，輔助完成實體對齊。

第五，AIGC大模型為知識更新舔磚加瓦。

基於大模型的常識知識和通用抽取能力可以輔助MMKG進行知識更新。可以利用多模態AIGC大模型從新事實中輔助抽取新知識；當新知識抽取完成後，可以藉助多模態AIGC大模型輔助更新多模態知識圖譜。此外，還可以藉助多模態AIGC大模型輔助過期事實檢測，從而將過期知識從知識圖譜中刪除。

第六，AIGC大模型為知識問答錦上添花。

利用大模型的語言理解能力和解析能力，可以幫助更好的構建多模態知識問答系統。在ChatGPT的知識問答評測結果顯示其在很多問題類型上效果顯著，且跨語言低資源情況下具有碾壓級效果，但是其數值類問題效果不及SOTA。因此，使用AIGC大模型助力MM-KGQA和K-VQA等任務，可以提升問題解析能力，強化知識推理能力，提供外部知識輔助等。

MMKG for AIGC

第五部分，我們總結與展望一下MMKG如何助力AIGC大模型的提升與完善。

第一，MMKG參與AIGC大模型的生成能力評估。

基於多模態知識圖譜中的知識構建測試集，可對大模型的生成能力進行各方面評估。例如利用各類百科知識圖譜進行事實性檢驗評估，也可以利用各類MMKG構建測試集進行符號推理能力評估、視覺常識推理能力評估、非語言推理能力評估等。

第二，MMKG引導AIGC大模型的可控約束生成。

已有工作在文本AIGC模型中引入指定約束（如包含/避免某主題）進行可控生成。可以展望未來會出現多模態知識引導大模型約束生成的工作。比如對於圖像生成，可通過將文本鏈接到多模態知識圖譜的具體實體，提供實體圖像信息，幫助正確生成實體對應圖像；對於文本生成，通過鏈接到多模態知識圖譜的具體實體，提供實體關係屬性和實體圖像等實體畫像信息，幫助正確生成符合實體性質和特點的文本。

第三，MMKG幫助AIGC大模型進行知識編輯。

目前已有在文本大模型上的知識編輯的相關工作。可以預見，未來也會出現利用多模態知識圖譜來對多模態大模型進行知識編輯的研究工作。

第四，MMKG輔助AIGC大模型的領域（任務）適配。

用多模態知識圖譜做領域知識微調可以將大模型的能力適配到領域任務。例如，在電商領域跨模態檢索場景，常常存在語義不匹配的問題。這種情況下，大模型如何低成本、高效率地解決該領域的具體問題是其應用落地的關鍵。我們與阿里合作的這篇工作提出了通過微調大模型，加上多模態知識輔助的方式，實現了大模型的輕量級領域適配。

AIGC+MMKG

第六部分，我們展望一下AIGC大模型和MMKG如何進一步合作。

我們認為，走向通用人工智能需要AIGC大模型和MMKG攜手並進。在未來，基於知識工程和統計模型的語言認知和多模態感知將會相互結合，並且藉助MMKG和AIGC大模型，共同走向多模態認知的發展道路上。從視覺感知和語言認知到多模態認知，從連接主義和符號主義到神經符號主義，通用人工智能必將是一條融合之路。

AIGC和MMKG的第一種融合方式是注入知識以增強預訓練大模型。目前知識增強的預訓練語言模型已有多種路徑實現。在多模態知識增強預訓練的方向上，也有工作將場景圖知識融入視覺語言預訓練模型的預訓練過程中以增強跨模態語言理解能力。未來還有很多方式方法來將MMKG中的知識以更多方式融入到大模型當中。

AIGC和MMKG的第二種融合方式是基於知識檢索增強的多模態生成。例如，給定文本提示，訪問外部多模態知識庫以檢索相關圖文對，將其用作生成圖像的參考。

AIGC和MMKG的第三種融合方式是因果知識增強的多模態生成。已有工作利用因果圖譜中的因果關係和圖推理能力，輔助大模型的因果決策，通過在因果圖譜上的檢索、推理和融合將因果信息融入大模型推理中。可以展望，未來因果知識也可被用在對多模態大模型的理解與生成能力優化上。

AIGC和MMKG的第四種融合方式是個性化知識接入的多模態生成。在未來，或許每個個體或企業都會擁有AI私有化助手，那麼如何管理個性化多模態知識，諸如個人畫像知識圖譜、企業畫像知識圖譜、價值觀知識圖譜、自媒體知識圖譜等，將這些知識以一種可插拔式的方式接入AIGC大模型中，提高大模型的個性化生成能力將是非常值得探索的方向。

實際上，Microsoft 365 Copilot就可以看作是知識庫與大模型良好協作的一款劃時代產品。藉助Microsoft Graph（可以看做是一種知識庫）與AIGC大模型的協作融合，助力Word、PowerPoint、Excel的生產力大提升。

此外，在行業落地層面，AIGC大模型和MMKG的融合更具價值。由於利用海量通用語料和通用知識訓練的通用大模型與行業應用場景之間依然存在鴻溝，因此需要進行行業數據挖掘和行業特色知識獲取來進一步訓練更加實用的行業大模型。

基於上述原因，行業落地往往需要多層次的模型，並有效與知識庫和外部工具進行配合，才能真正解決好行業問題。通用多模態預訓練生成大模型、行業領域預訓練模型、任務小模型以及行業知識庫、外部工具將構成一個模型共同體，協作解決行業複雜問題。

總結

最後總結一下本次分享的主要觀點。首先，AIGC技術的發展必將加速邁向通用人工智能的步伐。但是僅憑AIGC技術無法真正實現通用人工智能。在多模態領域，MMKG的構建與應用仍具重要價值。我們認為，AIGC和MMKG應該相互借力，我們分別從AIGC用於MMKG、MMKG用於AIGC、MMKG和AIGC如何融合三方面給出了二者競合方式的探索和展望。未來，符號知識和統計模型的競合方式有待進一步深入探索。

（在此感謝輔助完成分享PPT材料的課題組同學們，包括陳石松、朱祥茹、王續武、查志偉、王小丹、趙一聰、鄒健。演講稿的文字記錄與整理由查志偉同學完成。）

本文鏈接：https://www.8btc.com/article/6813316

轉載請註明文章出處