沈向洋：“一言勝千圖”時代到來，AIGC將發生顛覆式變化

來源：澎湃新聞

記者邵文

·“單從技術角度而言，AIGC（AI生成內容）所具備的能力還不夠全面，現在只是從文字生成圖像，但事實上我們想要的可能更多，比如對已經生成的圖像進行交互式編輯。而對專業領域如服裝設計，則需要非常特定的模型。這個故事才剛剛開始。”IDEA研究院講席科學家、“蓋亞計劃”負責人張家興在採訪中表示。

首個中文Stable Diffusion模型“太乙”根據油畫“君不見黃河之水天上來”生成的圖片。

11月22日，在深圳舉行的2022 IDEA大會上，粵港澳大灣區數字經濟研究院（IDEA）創院理事長沈向洋在發布會上分享了他對前沿技術的看法以及對未來趨勢的判斷，其中他談到了當下AI發展的技術趨勢，提到風頭正勁的AIGC，將其概括為“從一圖勝千言到一言勝千圖”。沈向洋認為，伴隨算力和數據的數量級增長，以及大模型持續迭代， AIGC領域將發生顛覆式變化，如何用好AI數字生產力，是各類企業和創業團隊接下來要思考的問題。

IDEA研究院公布了專註於AIGC領域的項目——“蓋亞計劃”，這一項目已於今年11月1日正式開源了自主研發的首個中文Stable Diffusion模型“太乙”，旨在更好地助力中國AIGC文化產業數字化轉型的創新發展。

DALL.E（基於GPT-3開發的一種新型神經網絡）根據語言描述生成的牛油果形狀扶手椅。

“每個人都是達芬奇”

AIGC（AI-Generated Content，AI生成內容），即使用語言描述就可以通過人工智能自動生成生動的圖片甚至視頻，比如OpenAI的圖像生成模型DALL-E。

“人工智能大模型發展的規模和速度，都到了今天我們不可忽視的地步。最新的技術可以通過一句話，創造出數不清的圖像，每張都有自己的特點。可謂從一圖勝千言，到了一言勝千圖。”沈向洋在IDEA大會上說， “我從事計算機視覺研究這麼多年，如果三五年前告訴我能做出這樣的效果我是不會相信的。”

沈向洋談到，人工智能技術將在文本生成圖像等領域開啟新的技術趨勢。今年發布的DALL-E 2、近期備受熱議的Stable Diffusion等模型，為人們展現了AI數字生產力在圖像生成乃至藝術創作上的強大力量。

“AIGC最重要的是，可以幫助每個人在有藝術創作衝動時做一些事情。”沈向洋說，“有人研究過歷史上為什麼有些藝術家一輩子只能畫幾張畫，而其他藝術家可以畫很多畫，這其中最著名的就是達芬奇。藝術史研究者專⻔研究后發現：達芬奇那麼多的作品不是他一個人畫的，而是帶了很多徒弟。”而到了現在，“每個人都是‘達芬奇’，人工智能就是每個人的小徒弟。”

沈向洋認為，目前AIGC能實現這樣的效果有三個技術基礎：巨大的數據量、龐大的算力和新的深度學習算法。“這個結果代表了今天人工智能能夠達到的高度和方向。”

“這個故事才剛剛開始”

這個突破是如何實現的呢？IDEA研究院講席科學家、“蓋亞計劃”負責人張家興對澎湃科技（www.thepaper.cn）表示，從整個AI的發展歷程來說，“此前我們更多在研究AI如何分析和理解，比如圖像識別、人臉識別、文本情感分析等。然後這個技術趨於成熟，這時候大家亟待有一個新的AI能力出現。”

在AIGC的探索過程中有一個重要的思路轉換：不是用AI理解內容，而是用AI來直接生成內容。“原來的技術趨勢，如卷積神經網絡從輸入基本圖像到輸出我們想要的結果，過程就是對原始輸入有越來越抽象的理解。而當下的生成，實際上是一個反向的過程——從一張完全模糊的圖像開始想象，最終呈現清晰的圖像。”張家興對澎湃科技解答道，這個過程大概從2015年左右開始，嘗試了六七年的時間后，終於現在有一些模型上的進步，如Diffusion模型，於是才有了這樣一個大的突破。

Diffusion模型通過定義一個不斷加噪聲的前向過程來將圖片逐步變為高斯噪聲，再通過定義一個逆向過程將高斯噪聲逐步去噪變為清晰圖片以得到採樣。

Diffusion模型在使用上一個非常大的限制就是採樣速度，模型採樣需要從純噪聲圖片出發，一步一步不斷地去噪，最終得到清晰的圖片。據11月發布的最新研究，清華大學計算機系教授朱軍帶領的TSAIL團隊將擴散模型的快速採樣算法提升到了極致：無需額外訓練，僅需10到25步就可以獲得極高質量的採樣，採樣8張圖片的時間從原來的8秒鐘被縮短至4秒鐘。

除此之外，對於當下存在的問題，張家興表示，“單從技術角度而言，AIGC所具備的能力還不夠全面，現在只是從文字生成圖像，但事實上我們想要的可能更多，比如對已經生成的圖像進行交互式編輯。除此之外，對專業領域如服裝設計，那就需要非常特定的模型。”

“這個故事才剛剛開始。”張家興說。