沈向洋:“一言勝千圖”時代到來,AIGC將發生顛覆式變化

來源:澎湃新聞

記者 邵文

·“單從技術角度而言,AIGC(AI生成內容)所具備的能力還不夠全面,現在只是從文字生成圖像,但事實上我們想要的可能更多,比如對已經生成的圖像進行交互式編輯。而對專業領域如服裝設計,則需要非常特定的模型。這個故事才剛剛開始。”IDEA研究院講席科學家、“蓋亞計劃”負責人張家興在採訪中表示。

沈向洋:“一言勝千圖”時代到來,AIGC將發生顛覆式變化

首個中文Stable Diffusion模型“太乙”根據油畫“君不見黃河之水天上來”生成的圖片。

11月22日,在深圳舉行的2022 IDEA大會上,粵港澳大灣區數字經濟研究院(IDEA)創院理事長沈向洋在發布會上分享了他對前沿技術的看法以及對未來趨勢的判斷,其中他談到了當下AI發展的技術趨勢,提到風頭正勁的AIGC,將其概括為“從一圖勝千言到一言勝千圖”。沈向洋認為,伴隨算力和數據的數量級增長,以及大模型持續迭代, AIGC領域將發生顛覆式變化,如何用好AI數字生產力,是各類企業和創業團隊接下來要思考的問題。

IDEA研究院公布了專註於AIGC領域的項目——“蓋亞計劃”,這一項目已於今年11月1日正式開源了自主研發的首個中文Stable Diffusion模型“太乙”,旨在更好地助力中國AIGC文化產業數字化轉型的創新發展。

沈向洋:“一言勝千圖”時代到來,AIGC將發生顛覆式變化

DALL.E(基於GPT-3開發的一種新型神經網絡)根據語言描述生成的牛油果形狀扶手椅。

每個人都是達芬奇

AIGC(AI-Generated Content,AI生成內容),即使用語言描述就可以通過人工智能自動生成生動的圖片甚至視頻,比如OpenAI的圖像生成模型DALL-E。

“人工智能大模型發展的規模和速度,都到了今天我們不可忽視的地步。最新的技術可以通過一句話,創造出數不清的圖像,每張都有自己的特點。可謂從一圖勝千言,到了一言勝千圖。”沈向洋在IDEA大會上說, “我從事計算機視覺研究這麼多年,如果三五年前告訴我能做出這樣的效果我是不會相信的。”

沈向洋談到,人工智能技術將在文本生成圖像等領域開啟新的技術趨勢。今年發布的DALL-E 2、近期備受熱議的Stable Diffusion等模型,為人們展現了AI數字生產力在圖像生成乃至藝術創作上的強大力量。

“AIGC最重要的是,可以幫助每個人在有藝術創作衝動時做一些事情。”沈向洋說,“有人研究過歷史上為什麼有些藝術家一輩子只能畫幾張畫,而其他藝術家可以畫很多畫,這其中最著名的就是達芬奇。藝術史研究者專⻔研究后發現:達芬奇那麼多的作品不是他一個人畫的,而是帶了很多徒弟。”而到了現在,“每個人都是‘達芬奇’,人工智能就是每個人的小徒弟。”

沈向洋認為,目前AIGC能實現這樣的效果有三個技術基礎:巨大的數據量、龐大的算力和新的深度學習算法。“這個結果代表了今天人工智能能夠達到的高度和方向。”

“這個故事才剛剛開始”

這個突破是如何實現的呢?IDEA研究院講席科學家、“蓋亞計劃”負責人張家興對澎湃科技(www.thepaper.cn)表示,從整個AI的發展歷程來說,“此前我們更多在研究AI如何分析和理解,比如圖像識別、人臉識別、文本情感分析等。然後這個技術趨於成熟,這時候大家亟待有一個新的AI能力出現。”

在AIGC的探索過程中有一個重要的思路轉換:不是用AI理解內容,而是用AI來直接生成內容。“原來的技術趨勢,如卷積神經網絡從輸入基本圖像到輸出我們想要的結果,過程就是對原始輸入有越來越抽象的理解。而當下的生成,實際上是一個反向的過程——從一張完全模糊的圖像開始想象,最終呈現清晰的圖像。”張家興對澎湃科技解答道,這個過程大概從2015年左右開始,嘗試了六七年的時間后,終於現在有一些模型上的進步,如Diffusion模型,於是才有了這樣一個大的突破。

Diffusion模型通過定義一個不斷加噪聲的前向過程來將圖片逐步變為高斯噪聲,再通過定義一個逆向過程將高斯噪聲逐步去噪變為清晰圖片以得到採樣。

Diffusion模型在使用上一個非常大的限制就是採樣速度,模型採樣需要從純噪聲圖片出發,一步一步不斷地去噪,最終得到清晰的圖片。據11月發布的最新研究,清華大學計算機系教授朱軍帶領的TSAIL團隊將擴散模型的快速採樣算法提升到了極致:無需額外訓練,僅需10到25步就可以獲得極高質量的採樣,採樣8張圖片的時間從原來的8秒鐘被縮短至4秒鐘。

除此之外,對於當下存在的問題,張家興表示,“單從技術角度而言,AIGC所具備的能力還不夠全面,現在只是從文字生成圖像,但事實上我們想要的可能更多,比如對已經生成的圖像進行交互式編輯。除此之外,對專業領域如服裝設計,那就需要非常特定的模型。”

“這個故事才剛剛開始。”張家興說。

“中文AIGC時代”

目前在國內,大部分團隊主要基於翻譯API+英文Stable Diffusion模型進行開發,Stable Diffusion被稱為當下最強的AI圖像生成器。然而,由於中英文之間的文化差異,在遇到中文獨特的敘事和表達時,這種模型就很難正確匹配圖片內容。

為了解決這個問題,“蓋亞計劃”近期開源了首個中文Stable Diffusion模型“太乙”。“我們這個項目的開源也標誌着中文AIGC時代的來臨。”沈向洋說。

“蓋亞計劃”由IDEA研究院認知計算與自然語言研究中心發起,致力於在預訓練大模型時代建設認知智能的基礎設施,是國內目前唯一以開源為目的的技術團隊。

為什麼如此看重開源?和AIGC本身的技術門檻有關。

“AIGC一定要依賴於預訓練模型,而預訓練模型的訓練本身就是一個巨大的技術門檻。因為要想得到一個真正高質量的AI模型,需要聚集大量的算力、數據以及在訓練模型方面有經驗的人才。從這一點來說,目前可以聚集這樣資源的團隊並不多。整個AIGC的預訓練模型生產也呈現高成本化的狀態。”張家興對澎湃科技表示。

而開源就意味着,下游的所有公司都可以免費使用這個模型完成其產品創新。“這件事情非常重要。其實這次國際上為什麼AIGC會這樣興起?這跟Stability AI開源了其模型非常相關。所以我們希望通過開源讓整個產業成長。”張家興介紹稱這是IDEA研究院的一個長期目標。

張家興提到的Stability AI在10月宣布獲得了1.01億美元超額融資,此輪融資后,Stability AI估值到達10億美元,成為新晉獨角獸。其資金將用於開發圖、文、視頻、音頻(音樂生成算法和工具Dance Diffusion也已曝光)和3D等多模態開源模型。

IDEA大會由IDEA研究院創院理事長、美國國家工程院外籍院士、前微軟公司全球執行副總裁沈向洋發起,致力在粵港澳大灣區搭建一個分享人工智能技術和凝聚數字產業力量的國際化交流平台,發布年度科技趨勢與創新產品,將前沿對話落實到數字經濟時代的實踐中。

本文鏈接:https://www.8btc.com/article/6789724

轉載請註明文章出處

(0)
上一篇 2023-03-21 23:15
下一篇 2023-03-21 23:16

相关推荐