NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

人類幼崽2歲就能做的事,AI竟然才學會?早在2017年,就有網友吐槽:2歲幼童只要見過一次犀牛的照片,就能在其他圖片里認出不同姿勢、視角和風格的卡通犀牛,但AI卻做不到。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

直到現在,這一點終於被科學家攻克了!

最新研究發現,只要給AI喂3-5張圖片,AI就能抽象出圖片里的物體或風格,再隨機生成個性化的新圖片。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

有網友評價:非常酷,這可能是我這幾個月來看到的最好的項目。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

它是如何工作的?

讓我們先來看幾個例子。

當你上傳3張不同角度的陶瓷貓照片,可能會得到以下4張新圖像:兩隻在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術風格的貓以及陶瓷貓主題的午餐盒。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

同樣的例子還有藝術品:

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

鎧甲小人:

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

碗:

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

不只是提取圖像中的物體,AI還能生成特定風格的新圖像。

例如下圖,AI提取了輸入圖像的繪畫風格,生成了一系列該風格的新畫作。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

更神奇的是,它還能將兩組輸入圖像相結合,提取一組圖像中的物體,再提取另一組的圖像風格,兩者結合,生成一張嶄新的圖像。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

除此之外,有了這個功能,你還可以對一些經典圖像“下手”,給它們添加一些新元素。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

那麼,這麼神奇的功能背後是什麼原理呢?

儘管近兩年來,大規模文本-圖像模型,如DALL·E、CLIP、GLIDE等,已經被證明有很強的自然語言推理能力。

但有一點:如果用戶提出一些特定的需求,比如生成一張包含我最喜歡的童年玩具的新照片,或者把孩子的塗鴉變成一件藝術品,這些大規模模型都很難做到。

為了應對這一挑戰,研究給出了一個固定的、預先訓練好的文本-圖像模型和一個描述概念的小圖像集(用戶輸入的3-5張圖像),目標是找到一個單一的詞嵌入,從小集合中重建圖像。由於這種嵌入是通過優化過程發現的,於是稱之為“文本倒置(Textual Inversion)”。

具體來說,就是先抽象出用戶輸入圖像中的物體或風格,並轉換為“S∗”這一偽詞(pseudo-word),這時,這個偽詞就可以被當作任何其他詞來處理,最後根據“S∗”組合成的自然語句,生成個性化的新圖像,比如:

“一張S∗在海灘上的照片”、”一幅掛在牆上的S∗的油畫”、”以S2∗的風格畫一幅S1∗”。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

值得注意的是,由於本次研究應用了一個小規模、經過策劃的數據集,因此在生成圖像時能有效地避免刻板印象。

例如下圖,當提示“醫生”時,其他模型傾向於生成白種人和男性的圖像,而本模型生成圖像中則增加了女性和其他種族的人數。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

目前,該項目的代碼和數據已開源,感興趣的小夥伴可以關注一下。

作者介紹

該篇論文來自特拉維夫大學和英偉達的研究團隊,作者分別是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉維夫大學的計算機科學博士生,師從Daniel Cohen-Or和Amit Bermano,主要研究方向是在減少監督的條件下生成2D和3D模型,目前在英偉達工作。

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會了

參考鏈接:

[1]

https://textual-inversion.github.io/

[2]https://github.com/rinongal/textual_inversion

[3]https://arxiv.org/abs/2208.01618

[4]https://twitter.com/_akhaliq/status/1554630742717726720

[5]https://rinongal.github.io/

(0)
上一篇 2022-08-14 11:57
下一篇 2022-08-14 11:58

相关推荐