英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

2022-11-04 15:51 • 數字貨幣

來源：量子位

英偉達也來卷擴散模型了。

這一次，它將文本生成圖像的效果再次提高一個level。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

比如，面對超長文本描述，它（下圖最右列）比Stable Diffusion和DALL-E 2表達的都更精確：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

注意第一組圖刺蝟的夏威夷風襯衣，以及第三組圖貓貓的頭盔。

當描述要求展示出具體的文字時，也只有它（下圖最右列）可以準確做到：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

除此之外，即時樣式轉換也是小菜一碟，只需一張樣圖就成。

比如來一個梵高風的泰迪熊衝浪：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

或者這樣的鴨子：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

當然，英偉達最擅長的分割圖作畫，它也支持，可以讓你用寥寥幾筆完成精準構圖：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

（其中，每一個顏色塊代表一個元素。）

看起來還闊以吧，它背後的方法也值得說道說道。

兩個文本編碼器+專家去噪網絡

我們知道，擴散模型包含兩個階段：

從原圖逐步到噪聲的正向過程/擴散過程；

以及從噪聲逐步到原圖的逆向過程。

第二個過程就是去噪，作者想到，在此階段，面對不同的噪聲水平時都用不同的模型進行處理，也就是開發一個叫做“專家去噪”的網絡，效果是不是會更好一些？

於是就誕生了這個新的AIGC工具：eDiffi。

eDiffi的pipeline由三個擴散模型級聯而成：

一個可以合成64×64分辨率樣本的基礎模型，以及兩個可以分別將圖像分辨率遞增到256×256和1024×1024的超分辨率模型。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

當模型接收到一條文本描述時，會首先同時計算T5 XXL embedding和CLIP text embedding。

注意是用了兩個文本編碼器哦，不然效果不會這麼好：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

Ps. T5指的是谷歌的文本到文本轉換器（Text-to-Text Transfer Transformer ），它可以幫助模型做到更精準地理解文本描述。

接着選擇根據參考圖像計算得出的CLIP圖像編碼，用作樣式向量（可選可不選）。

然後再將所有embedding都饋送到上面的級聯擴散模型中，最後逐漸生成分辨率為1024×1024的圖像。

再來說說主角：去噪專家（Denoising experts）網絡。

我們知道，在擴散模型中，圖像的合成是通過迭代去噪過程來完成的，這個過程又指的是從隨機噪聲中逐漸生成圖像。

在傳統的擴散模型訓練中，都是訓練一個模型來對整個噪聲分佈進行去噪。

而在作者的這個框架中，他們訓練了一組專家去噪器，專門用於在生成過程的不同步驟進行去噪。

如下圖所示，作者是先從一個完整的隨機噪聲開始，然後分多個步驟逐步操作，最終生成一張騎自行車的熊貓圖像。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

一位StabilityAI員工認為，這種方法可能是擴散模型的下一大突破/進步。因為不止英偉達的這個eDiffi，還有百度的文心ERNIE-ViLG 2.0也是這麼做的。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

zero-shot FID上獲SOTA得分

eDiffi模型是在“公共和專有數據集的集合”上訓練而成。

其中基礎模型花了256塊英偉達A100 GPU，兩個超分辨率模型則花了128塊A100。

用於PK的模型包括GLIDE、Make-A-Scene、DALL-E 2、Stable Diffusion和谷歌的兩個圖像合成系統Imagen和Parti。

作者從COCO驗證集中隨機提取30000個文本描述，然後讓這些模型生成結果，紀錄zero-shot FID-30K得分。

最終，eDiffi獲得了最低也就是最佳分數，說明它與文字的匹配度是最高的。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

最後，再來兩組效果展示和對比：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

以及風格遷移的（第一列為參考風格，第二列為結果，第三列為參考圖像）：

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

關於作者

一共有12位，都來自英偉達，其中3位華人：

畢業於康奈爾大學的博士黃勛（AdaIN一作）、畢業於清華本科和斯坦福博士的Song Jiaming以及英偉達高級研究總監Liu MingYu。

英偉達也來卷AI繪畫，支持幾筆完成精準構圖，還提出擴散模型進化新方向

目前，該模型還未開源，不過有人表示改動不算大，所以實現起來並不難，應該很快就有人復現出來了。

論文地址：
https://arxiv.org/abs/2211.01324

項目主頁：
https://deepimagination.cc/eDiffi/

參考鏈接：
[1]https://twitter.com/iScienceLuvr/status/1587973173932195840
[2]https://twitter.com/_akhaliq/status/1587971650007564289
[3]https://www.unite.ai/nvidias-ediffi-diffusion-model-allows-painting-with-words-and-more/

本文鏈接：https://www.8btc.com/article/6786030

轉載請註明文章出處

一個偉達擴散

赞 (0)

雅果科技完成數千萬元A+輪融資

上一篇 2022-11-04 14:50

耀視醫療完成數千萬元Pre-A輪融資

下一篇 2022-11-04 15:51

數字貨幣

隨着周五9.3億美元比特幣期權到期，空頭佔據主導地位

5月21日上午8:00 UTC，價值9.3億美元的比特幣周期權將到期。像往常一樣，Deribit佔有90%的份額，但最近的市場下跌可能給了空頭太多的力量。當交易員和分析師為從64…

2021-05-21
數字貨幣

元宇宙：NFT和奢侈品牌融合之地

什麼是元宇宙？簡而言之，元宇宙指的是為人類設計的虛擬世界，可以像在現實世界中一樣輕鬆地與之互動。這超出了玩遊戲或與化身聊天的範圍。更重要的是，這意味着更包括購買資產、結婚、旅行，以…

2022-02-18
數字貨幣

巴比特 | 元宇宙每日必讀：回顧數字藏品的2022，從高歌猛進到急速剎車，明年能否等到“風”來？

摘要：數字藏品，無疑是2022年我國區塊鏈界最為矚目的應用之一，在這一年中，數字藏品行業從高歌猛進到急速剎車、從企業扎堆到巨頭退場，從需求高漲到被迫出清，經歷了跌宕起伏、高潮迭起的…

2023-03-22
數字貨幣

調查 | 是誰偷走了110億美元的以太幣？

文章作者：Laura Shin 文章翻譯：Block unicorn 原文標題：《Exclusive: Austrian Programmer And Ex Crypto CEO…

2022-02-23
狂歡之後迎監管，Web3增長沃土在哪？

來源：Kr品牌主理人文：靖雯編輯：阿至過去數月，品牌主理人和眾多創業者、觀察人士探討行業未來發展的過程中，出海和Web3幾乎是被提到最多的兩個關鍵詞。客觀來說，Web3所倡導…

數字貨幣 2022-07-29
數字貨幣

比特幣成為薩爾瓦多法定貨幣背後：美國棄子，依然是美元奴隸

6月9日，歷史性時刻來臨。薩爾瓦多以“絕對多數”投票贊成正式通過法案，使比特幣在該國成為法定貨幣，這意味着薩爾瓦多成為了史上第一個正式將比特幣定為法定貨幣的國家。總統納伊布·布…

2021-06-09
數字貨幣

《花花公子》推齣動畫NFT，奧林匹克NFT徽章即將推出，蘇富比宣布拍賣全球首個iNFT

以其獨特logo而聞名的生活方式和娛樂品牌《花花公子》，在一個名為“Raretoshi”的新NFT市場上推出了其首批5個動畫NFT，Raretoshi獲得Blockstream的L…

2021-06-05
數字貨幣

從物理學視角理解 Loot：為什麼它可能是元宇宙的「蟲洞」？

撰文：吉米，來自 SnapFingers Research 市面上有很多關於 Loot 的基本面和數據面的文章，這裡就不聊這些了。今天作為一位物理系的童鞋，給大家分享一些幾個從物理…

2021-09-10
數字貨幣

浙江區塊鏈技術應用協會會長金雪軍：政策利好加持，產業區塊鏈黃金時期來臨

人物專訪產業區塊鏈是政府與大型企業布局的重中之重。鏈新（ID:ChinaBlockchainNews）原創作者 | 方沁雨近期，隨着全國和各地“兩會”的召開，“區塊鏈”再次在…

2022-04-15
數字貨幣

比特幣交易量超過PayPal，下一步會不會打敗萬事達卡和Visa？

根據市場情報平台Blockdata今日發布的一份報告，比特幣網絡超過了領先的支付平台PayPal，以美元價值計算的交易量增加了 62%。儘管這是一個重要的里程碑，但比特幣面臨的真…

2021-11-26