英偉達入局AIGC！Magic3D新模型力壓谷歌DreamFusion

來源：新智元

圖片來源：由無界版圖 AI 工具生成。

導讀：AIGC的賽道上，又多了一個實力派！英偉達發布Magic3D生成模型，對標谷歌DreamFusion，直言解決了對家的兩大缺點。

從DALL·E到Stable Diffusion，最近，基於AIGC的技術和應用成為業界和學界的又一寵兒。

Stable Diffusion背後的公司Stability AI甚至憑藉這個模型獲得多家投資機構青睞，一躍成為獨角獸。

如果說資本的嗅覺是最敏銳的，那麼科技巨頭先後入場也就不足為奇了，這塊細分領域迅速地「卷」起來了！

大廠接連入局AIGC，怎能少了英偉達

9月，谷歌發布了基於文本提示生成3D模型的DreamFusion，聲稱不需要 3D 訓練數據，也不需要修改圖像擴散模型，證明了預訓練圖像擴散模型作為先驗模型的有效性。

10月，Meta推出新模型Make-A-Video，可以從文本一鍵生成視頻，初步實現了「動動嘴，做視頻」。

單說文字直接生成視頻這個方面，Make-A-Video 甚至戰勝了不少專業的動畫設計專業的學生。

上周，英偉達也宣布入場！

該公司研究人員發布了Magic3D，這是一個可以從文字描述中生成3D模型的AI模型。

在輸入諸如「一隻坐在睡蓮上的藍色毒鏢蛙」這樣的提示后，Magic3D在大約40分鐘內生成了一個3D網格模型，並配有彩色紋理。

在論文中，英偉達將Magic3D定位為對DreamFusion的回應。

論文鏈接：https://arxiv.org/pdf/2211.10440.pdf

與DreamFusion使用文本到圖像模型生成2D圖像，然後優化為體積NeRF（神經輻射場）數據的方式類似，Magic3D同樣是將低分辨率生成的粗略模型優化為高分辨率的精細模型，由此產生的Magic3D方法，可以比DreamFusion更快地生成3D目標。

從上面Magic3D的架構示意圖可以看出，Magic3D以「由粗到細」的方式從輸入的文本提示中生成高分辨率的三維內容。

整個生成過程分為兩個階段。

第一階段，研究團隊使用eDiff-I作為低分辨率文本-圖像擴散先驗。通過優化Instant NGP獲得初始3D表示。

之後通過反覆抽樣和渲染低分辨率圖像，不斷計算Score Distillation Sampling的損失來訓練Instant NGP。

優化后使用DMTet，從Instant NGP中提取一個粗略模型，並使用哈希網格和稀疏加速結構對其進行加速。

該擴散先驗用於計算場景的梯度，根據64×64的低分辨率圖像在渲染圖像上定義的損失進行建模。

第二階段，研究團隊使用高分辨率潛在擴散模型（LDM），不斷抽樣和渲染第一階段的粗略模型。通過交互渲染器進行優化，反向生成512×512的高分辨率渲染圖像。

Magic3D還可以對3D網格進行基於提示的實時編輯。想改變生成模型，只要改改文字提示，就能立即生成新的模型。

另外，Magic3D可以在幾代生成圖像中均保留相同的主題（一般稱為「一致性」），不會出現越畫越離譜的情況，並將2D圖像（如立體派繪畫）的風格應用於3D模型。

通過該模型，不僅可以獲得高分辨率的3D模型，還保證了降低了運算強度。

Magic3D模型中，運算時間主要與高分辨率渲染圖像和LDM編碼器的梯度相關，保證了運算強度的可控。

在生成和訓練速度方面，在使用8塊英偉達 A100 GPU情況下，兩階段運行時間加起來共計40分鐘。

不過，英偉達此次沒有隨論文發布任何Magic3D的代碼。

谷歌DreamFusion要加油了

英偉達團隊指出，DreamFusion存在兩大缺陷。

首先，通過該模型，無法獲得3D模型的高分辨率幾何體或紋理，因為擴散模型僅對64×64的圖像生效。

其次，這種方法的擴展性表現並不好。DreamFusion的場景渲染模型使基於Mip-NeRF 360的大型MLP。該模型在體渲染時需要海量樣本，這在計算上費時費力。

因此，DreamFusion生成高分辨率的圖像需要更大的計算成本，去評估每個樣本的神經網絡。

英偉達團隊使用Instant NGP的哈希特徵編碼，大大降低高分辨率圖像特徵表示的計算成本。

使用與DreamFusion相同的文本提示。對於每個3D模型，團隊從兩個視圖渲染它，每個視圖都有無紋理渲染，並刪除背景以專註於實際的 3D 形狀。

可以發現，Magic3D生成的3D模型在整體和紋理上都更勝一籌。

作為對比，我們向用戶並排展示了兩個3D生成模型的視頻，這兩個視頻分別由谷歌的DreamFusion和Magic3D使用相同的文本提示從標準視圖中生成的，由用戶選擇更逼真的那個。

在總共1191個反饋意見中，有61.7%的用戶認為Magic3D生成的模型質量比DreamFusion更高。

研究人員表示，隨着模型的完善，所產生的技術可以加速遊戲和VR應用的開發，可能最終會在電影和電視的特效製作中實現落地應用。

「我們希望通過Magic3D，可以使3D合成技術進一步普及，並激發每個人在3D內容上的創造力。」

經過近十年的技術發展，人們對AIGC的探索已經進入了商業化、規模化的階段。

隨着越來越多的科技巨頭加入這個賽道，創造出令人驚嘆的AI生成作品，有理由相信，AIGC的大航海時代已經來臨。

參考資料：

https://arstechnica.com/information-technology/2022/11/nvidias-magic3d-creates-3d-models-from-written-descriptions-thanks-to-ai/

https://deepimagination.cc/Magic3D/

https://arxiv.org/pdf/2211.10440.pdf

本文鏈接：https://www.8btc.com/article/6789490

轉載請註明文章出處

英偉達入局AIGC！Magic3D新模型力壓谷歌DreamFusion

大廠接連入局AIGC，怎能少了英偉達

谷歌DreamFusion要加油了

相关推荐