英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

來源:量子位

偉達也來卷擴散模型了。

這一次,它將文本生成圖像的效果再次提高一個level。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

比如,面對超長文本描述,它(下圖最右列)比Stable Diffusion和DALL-E 2表達的都更精確:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

注意第一組圖刺蝟的夏威夷風襯衣,以及第三組圖貓貓的頭盔。

當描述要求展示出具體的文字時,也只有它(下圖最右列)可以準確做到:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

除此之外,即時樣式轉換也是小菜一碟,只需一張樣圖就成。

比如來一個梵高風的泰迪熊衝浪:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

或者這樣的鴨子:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

當然,英偉達最擅長的分割圖作畫,它也支持,可以讓你用寥寥幾筆完成精準構圖:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

(其中,每一個顏色塊代表一個元素。)

看起來還闊以吧,它背後的方法也值得說道說道。

兩個文本編碼器+專家去噪網絡

我們知道,擴散模型包含兩個階段:

從原圖逐步到噪聲的正向過程/擴散過程;

以及從噪聲逐步到原圖的逆向過程。

第二個過程就是去噪,作者想到,在此階段,面對不同的噪聲水平時都用不同的模型進行處理,也就是開發一個叫做“專家去噪”的網絡,效果是不是會更好一些?

於是就誕生了這個新的AIGC工具:eDiffi

eDiffi的pipeline由三個擴散模型級聯而成

一個可以合成64×64分辨率樣本的基礎模型,以及兩個可以分別將圖像分辨率遞增到256×256和1024×1024的超分辨率模型。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

當模型接收到一條文本描述時,會首先同時計算T5 XXL embedding和CLIP text embedding

注意是用了兩個文本編碼器哦,不然效果不會這麼好:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

Ps. T5指的是谷歌的文本到文本轉換器(Text-to-Text Transfer Transformer ),它可以幫助模型做到更精準地理解文本描述。

接着選擇根據參考圖像計算得出的CLIP圖像編碼,用作樣式向量(可選可不選)。

然後再將所有embedding都饋送到上面的級聯擴散模型中,最後逐漸生成分辨率為1024×1024的圖像。

再來說說主角:去噪專家(Denoising experts)網絡。

我們知道,在擴散模型中,圖像的合成是通過迭代去噪過程來完成的,這個過程又指的是從隨機噪聲中逐漸生成圖像。

在傳統的擴散模型訓練中,都是訓練一個模型來對整個噪聲分佈進行去噪。

而在作者的這個框架中,他們訓練了一組專家去噪器,專門用於在生成過程的不同步驟進行去噪。

如下圖所示,作者是先從一個完整的隨機噪聲開始,然後分多個步驟逐步操作,最終生成一張騎自行車的熊貓圖像。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

一位StabilityAI員工認為,這種方法可能是擴散模型的下一大突破/進步。因為不止英偉達的這個eDiffi,還有百度的文心ERNIE-ViLG 2.0也是這麼做的。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

zero-shot FID上獲SOTA得分

eDiffi模型是在“公共和專有數據集的集合”上訓練而成。

其中基礎模型花了256塊英偉達A100 GPU,兩個超分辨率模型則花了128塊A100。

用於PK的模型包括GLIDE、Make-A-Scene、DALL-E 2、Stable Diffusion和谷歌的兩個圖像合成系統Imagen和Parti。

作者從COCO驗證集中隨機提取30000個文本描述,然後讓這些模型生成結果,紀錄zero-shot FID-30K得分。

最終,eDiffi獲得了最低也就是最佳分數,說明它與文字的匹配度是最高的。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

最後,再來兩組效果展示和對比:

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

以及風格遷移的(第一列為參考風格,第二列為結果,第三列為參考圖像):

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

關於作者

一共有12位,都來自英偉達,其中3位華人:

畢業於康奈爾大學的博士黃勛(AdaIN一作)、畢業於清華本科和斯坦福博士的Song Jiaming以及英偉達高級研究總監Liu MingYu。

英偉達也來卷AI繪畫,支持幾筆完成精準構圖,還提出擴散模型進化新方向

目前,該模型還未開源,不過有人表示改動不算大,所以實現起來並不難,應該很快就有人復現出來了。

論文地址:
https://arxiv.org/abs/2211.01324

項目主頁:
https://deepimagination.cc/eDiffi/

參考鏈接:
[1]https://twitter.com/iScienceLuvr/status/1587973173932195840
[2]https://twitter.com/_akhaliq/status/1587971650007564289
[3]https://www.unite.ai/nvidias-ediffi-diffusion-model-allows-painting-with-words-and-more/

本文鏈接:https://www.8btc.com/article/6786030

轉載請註明文章出處

(0)
上一篇 2022-11-04 14:50
下一篇 2022-11-04 15:51

相关推荐