1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

2022-09-30 16:31 • 數字貨幣

來源：新智元

Meta新模型Make-A-Video，可以從文本一鍵生成視頻了！AI的進展太神了……

給你一段話，讓你做個視頻，你能行嗎？

Meta表示，我可以啊。

你沒聽錯：使用AI，你也可以變成電影人了！

近日，Meta推出了新的AI模型，名字起得也是非常直接：做個視頻（Make-A-Video）。

這個模型強大到什麼程度？

一句話，就能實現「三馬奔騰」的場景。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

就連LeCun都說，該來的總是會來的。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

視覺效果超炫

話不多說，咱們直接看效果。

倆袋鼠在廚房忙着做飯（做出來能不能吃另說）

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

近景：畫師在畫布上作畫

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

大雨中漫步的二人世界（步伐整齊劃一）

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

馬在喝水

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

芭蕾舞女孩在摩天大樓跳舞

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

美麗的夏日熱帶海灘上，一隻金毛在吃冰激凌（爪子已進化）

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

貓主子拿着遙控器在看電視（爪子已進化）

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

一隻泰迪熊給自己畫自畫像

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

意料之外但情理之中的是，狗拿冰淇淋、貓拿遙控器以及泰迪熊畫畫的「手」，果然都「進化」得和人一樣啊！（戰術後仰）

當然，Make-A-Video除了可以把文本變成視頻之外，也可以把靜態圖變成Gif。

輸入：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸出：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸入：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸出：（亮的似乎有點不是地方）

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

2張靜圖變GIF，輸入隕石圖

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸出：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

以及，把視頻，變成視頻？

輸入：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸出：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸入：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

輸出：

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

技術原理

今天，Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

論文地址：https://makeavideo.studio/Make-A-Video.pdf

在這個模型出現之前，我們已經有了Stable Diffusion。

聰明的科學家已經讓AI用一句話生成圖像了，下一步他們會做什麼呢？

很顯然，是生成視頻。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

一隻穿着紅色斗篷的超級英雄狗在天空中飛翔

比起生成圖像來，生成視頻可難多了。我們不僅需要生成相同主題和場景的多個幀，還必須讓它們及時、連貫。

這就增加了圖像生成任務的複雜性——我們不可能就簡單地使用DALLE生成60張圖像，然後把它們拼成一個視頻。它的效果會很差，很不真實。

因此，我們需要一個能夠以更強大的方式理解世界的模型，並且讓它按照這種理解水平來生成一系列連貫的圖像。只有這樣，這些圖像才可以天衣無縫地融合在一起。

也就是說，我們的訴求是模擬一個世界，然後再模擬它的記錄。該怎麼做到呢？

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

按照以前的思路，研究人員會用大量的文本-視頻對來訓練模型，但在現在的這種情況下，這種處理方法並不現實。因為這些數據很難獲得，並且訓練成本非常昂貴。

因此，研究人員開了腦洞，採用了一種全新的方式。

他們選擇開發一個文本到圖像的模型，然後把它應用於視頻。

巧了，前段時間，Meta就曾開發過這麼一個從文本到圖像的模型Make-A-Scene。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

Make-A-Scene的方法概述

這個模型產生的契機是，Meta希望推動創意表達，將這種文本到圖像的趨勢與以前的草圖到圖像模型相結合，從而產生文本和以草圖為條件的圖像生成之間的奇妙融合。

這意味着我們可以快速勾勒出一隻貓，寫出自己想要什麼樣的圖像。遵循草圖和文本的指導，這個模型會在幾秒鐘內，生成我們想要的完美插圖。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

你可以把這種多模態生成AI方法看作是一個對生成有更多控制的Dall-E模型，因為它還可以將快速草圖作為輸入。

之所以稱它為多模態，是因為它可以將多種模態作為輸入，比如文本和圖像。相比之下，Dall-E只能從文本生成圖像。

為了生成視頻，就需要加入時間的維度，因此研究人員在Make-A-Scene模型中添加了時空管道。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

加入時間維度后，這個模型就不是只生成一張圖片，而是生成16張低分辨率的圖片，以創建一個連貫的短視頻。

這個方法其實與文本到圖像模型類似，但不同之處在於：在常規的二維卷積的基礎上，它增加一維卷積。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

只是簡單地增加了一維卷積，研究人員就能保持預先訓練的二維卷積不變的同時，增加一個時間維度。然後，研究人員就可以從頭開始訓練，重新使用Make-A-Scene圖像模型的大部分代碼和參數。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

在文本到圖像方法中使用常規二維卷積模塊之後，增加一維卷積模塊

同時，研究人員還想用文本輸入來指導這個模型，這將與使用CLIP嵌入的圖像模型非常相似。

在這種情況下，研究人員是在將文本特徵與圖像特徵混合時，增加空間維度，方法同上：保留Make-A-Scene模型中的注意力模塊，並為時間增加一個一維注意力模塊——複製粘貼圖像生成器模型，為多一個維度重複生成模塊，來獲得16個初始幀。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

在文本到圖像方法中使用常規的二維注意力模塊之後，增加一維注意力模塊

但是只靠這16個初始幀，還不能生成視頻。

研究人員需要從這16個主幀中，製作一個高清晰度的視頻。他們採用的方法是：訪問之前和未來的幀，並同時在時間和空間維度上對它們進行迭代插值。

就這樣，他們在這16個初始幀之間，根據前後的幀生成了新的、更大的幀，這樣就使運動變得連貫，整體視頻變得流暢了。

這是通過一個幀插值網絡完成的，它可以採取已有的圖像來填補空白，生成中間的信息。在空間維度上，它會做同樣的事情：放大圖像，填補像素的空白，使圖像更加高清。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

總而言之，為了生成視頻，研究人員微調了一個文本到圖像的模型。他們採用了一個已經訓練好的強大模型，對它進行調整和訓練，讓它適應視頻。

因為添加了空間和時間模塊，只要簡單地讓模型適應這些新數據就可以了，而不必重新訓練它，這就節省了大量的成本。

這種重新訓練使用的是未標記的視頻，只需要教模型理解視頻和視頻幀的一致性就可以了，這就可以更簡單地建立數據集。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

最後，研究人員再次使用了圖像優化模型，提高了空間分辨率，並使用了幀插值組件增加了更多的幀，使視頻變得流暢。

當然，目前Make-A-Video的結果還存在缺點，就如同文本到圖像的模型一樣。但我們都知道，AI領域的進展是多麼神速。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

如果你想進一步了解，可以參考鏈接中Meta AI的論文。社區也正在開發一個PyTorch的實現，如果你想自己實現它，請繼續關注。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

作者介紹

這篇論文中有多位華人研究人員參與：殷希、安捷、張宋揚、Qiyuan Hu。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

殷希，FAIR研究科學家。此前曾供職微軟，任Microsoft Cloud and AI 的高級應用科學家。在密歇根州立大學計算機科學與工程系獲博士學位，2013年畢業於武漢大學電氣工程專業，獲學士學位。主要研究領域為多模態理解、大規模目標檢測、人臉推理等。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

安捷，羅切斯特大學計算機科學系博士生。師從羅傑波教授。此前於 2016 年和 2019 年在北京大學獲得學士和碩士學位。研究興趣包括計算機視覺、深度生成模型和AI+藝術。作為實習生參與了Make-A-Video研究。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

張宋揚，羅切斯特大學計算機科學系博士生，師從羅傑波教授。在東南大學獲得學士學位，在浙江大學獲得碩士學位。研究興趣包括自然語言矩定位、無監督語法歸納、基於骨架的動作識別等。作為實習生參與了Make-A-Video研究。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

Qiyuan Hu，時任FAIR的AI Resident，從事提高人類創造力的多模態生成模型的研究。她在芝加哥大學獲得醫學物理學博士學位，曾從事AI輔助的醫學圖像分析工作。現已供職Tempus Labs，任機器學習科學家。

網友大受震撼

前段時間，谷歌等大廠紛紛放出自家的文本到圖像模型，如Parti，等等。

有人甚至認為文本到視頻生成模型還有一段時間才能到來。

沒想到，Meta這次投了一顆重磅炸彈。

其實，同在今天，還有一個文本到視頻生成模型Phenaki，目前已提交到ICLR 2023，由於還處於盲審階段，作者機構還是未知。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

網友稱，從DALLE到Stable Diffuson再到Make-A-Video，一切來得太快。

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

1句話生成視頻AI爆火！Meta最新SOTA模型讓網友大受震撼

參考資料：

https://makeavideo.studio/

https://makeavideo.studio/Make-A-Video.pdf

https://www.louisbouchard.ai/make-a-video/

本文鏈接：https://www.8btc.com/article/6780114

轉載請註明文章出處

赞 (0)

在元宇宙，流量不再是成為“周杰倫”的唯一密碼

上一篇 2022-09-30 16:20

“從一到L”，問天實驗艙如何完美轉位？

下一篇 2022-09-30 16:32

哈佛大學教授：Web3如何重構被巨頭破壞"公平性"的互聯網

作者 | Li Jin and Katie Parrott編譯 | 火火出品｜白話區塊鏈（ID：hellobtc） 2022年，波譎雲詭，在愁雲慘淡的整頓潮、裁員潮中，Web3逆勢…

數字貨幣 2022-09-23
數字貨幣

Vitalik：以太坊2.0可以實現每秒10萬筆交易丨2021世界區塊鏈大會

7月24日， 2021世界區塊鏈大會·杭州正式開幕。本屆大會以“無限未來”為主題，匯聚全球的100+區塊鏈、加密貨幣行業頭部創業者、研究者，以胸懷萬里世界的姿態，共同放眼無限未來的…

2021-07-24
馬斯克有必要知道：加密貨幣不喜歡也不需要救世主

來源：CoinDeskh 作者：David Morris 翻譯：北辰埃隆·馬斯克宣稱他將擁有加密技術方面的專業知識，就像他曾聲稱自己將帶來改變世界的創新技術——如救援潛艇、呼吸…

數字貨幣 2021-05-19
字節跳動弄潮元宇宙，買下Pico后要補的課還很多

文：投資者網侯書青編輯：吳悅來源：藍鯨財經 7月4日，有網友在社交平台上稱，自己的Pico neon 3 VR眼鏡在升級最新系統后出現了諸多問題，在官方論壇中，也有不少用戶要求…

數字貨幣 2022-07-19
日本金融巨頭野村證券進軍“元宇宙” ，進一步推進數字化服務

來源：財聯社實習編輯周子意日本金融巨頭野村證券（Nomura Holdings Inc.）正在組建一個團隊，以幫助企業在“元宇宙”（metaverse）領域拓展業務。該公司進…

數字貨幣 2022-05-19
招兵買馬，張一鳴和字節跳動“踏進”元宇宙

來源：中國企業家文/趙東山編輯/李薇原標題：《張一鳴半隻腳踏進元宇宙》字節跳動正在為旗下VR業務Pico大規模招兵買馬。服務器端開發工程師、人機工程專家、視覺感知算法工程…

數字貨幣 2022-03-16
數字貨幣

Epic Games 籌集20億美元“構建元宇宙”——它會使用加密貨幣或NFT嗎？

熱門遊戲《堡壘之夜》開發商 Epic Games 今天宣布，它已經籌集了20億美元的資金，想要“建立元宇宙”。索尼和樂高集團的母公司KIRKBI各投資10億美元，投后估值為 315…

2022-04-12
財聯社：比特幣遭全面圍獵！境外機構投資者大舉入場后比特幣還能走多遠？

來源：財聯社記者姜樊，高萍一場前所未有的針對比特幣交易的圍獵已經開始。財聯社記者獲悉，近期各地正在從多個方面對比特幣等加密貨幣產業進行整頓。繞過銀行監控體系的“OTC業務”、…

數字貨幣 2021-05-25
數字貨幣

10月Web3.0市場共融資8.5億美元，虛擬人賽道在國內最受青睞

來源：財聯社|元宇宙NEWS 記者徐賜豪原標題：《10月Web3.0市場共融資8.5億美元中國項目中數字人最受青睞》圖片來源：由無界版圖AI工具生成據財聯社創投通不完全統…

2023-03-22
區塊鏈在資本市場上有哪些用例？從四類市場參與者說起

區塊鏈技術從根本上改變了金融機構交換價值和構建市場基礎設施的方式。從廣義上講，資本市場有四類市場參與者，基於區塊鏈的解決方案為他們提供了明顯的好處：發行人、基金經理、投資者和監管者…

數字貨幣 2021-12-16