“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

一周不到,AI 畫師又“進階”了,還是一個大跨步 —— 直接 1 句話生成視頻的那種。輸入“一個下午在海灘上奔跑的女人”,立刻就蹦出一個 4 秒 32 幀的小片段:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

又或是輸入“一顆燃燒的心”,就能看見一隻被火焰包裹的心:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

這個最新的文本-視頻生成 AI,是清華 & 智源研究院出品的模型 CogVideo。

Demo 剛放到網上就火了起來,有網友已經急着要論文了:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

CogVideo“一脈相承”於文本-圖像生成模型 CogView2,這個系列的 AI 模型只支持中文輸入,外國朋友們想玩還得藉助Google翻譯:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

看完視頻的網友直呼“這進展也太快了,要知道文本-圖像生成模型 DALL-E2 和 Imagen 才剛出”

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

還有網友想象:照這個速度發展下去,馬上就能看到 AI 一句話生成 VR 頭顯里的 3D 視頻效果了:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

所以,這隻名叫 CogVideo 的 AI 模型究竟是什麼來頭?

生成低幀視頻后再插幀

團隊表示,CogVideo 應該是當前最大的、也是首個開源的文本生成視頻模型。

在設計模型上,模型一共有 90 億參數,基於預訓練文本-圖像模型 CogView2 打造,一共分為兩個模塊。

第一部分先基於 CogView2,通過文本生成幾幀圖像,這時候合成視頻的幀率還很低;

第二部分則會基於雙向注意力模型對生成的幾幀圖像進行插幀,來生成幀率更高的完整視頻。

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

在訓練上,CogVideo 一共用了 540 萬個文本-視頻對。

這裡不僅僅是直接將文本和視頻匹配起來“塞”給 AI,而是需要先將視頻拆分成幾個幀,並額外給每幀圖像添加一個幀標記。

這樣就避免了 AI 看見一句話,直接給你生成幾張一模一樣的視頻幀。

其中,每個訓練的視頻原本是 160×160 分辨率,被 CogView2 上採樣(放大圖像)至 480×480 分辨率,因此最後生成的也是 480×480 分辨率的視頻。

至於 AI 插幀的部分,設計的雙向通道注意力模塊則是為了讓 AI 理解前後幀的語義。

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

最後,生成的視頻就是比較絲滑的效果了,輸出的 4 秒視頻幀數在 32 張左右。

在人類評估中得分最高

這篇論文同時用數據測試和人類打分兩種方法,對模型進行了評估。

研究人員首先將 CogVideo 在 UCF-101 和 Kinetics-600 兩個人類動作視頻數據集上進行了測試。

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

其中,FVD(Fréchet 視頻距離)用於評估視頻整體生成的質量,數值越低越好;IS(Inception score)主要從清晰度和生成多樣性兩方面來評估生成圖像質量,數值越高越好。

整體來看,CogVideo 生成的視頻質量處於中等水平。

但從人類偏好度來看,CogVideo 生成的視頻效果就比其他模型要高出不少,甚至在當前最好的幾個生成模型之中,取得了最高的分數:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

具體來說,研究人員會給志願者一份打分表,讓他們根據視頻生成的效果,對幾個模型生成的視頻進行隨機評估,最後判斷綜合得分:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

CogVideo 的共同一作洪文逸和丁銘,以及二作鄭問迪,三作 Xinghan Liu 都來自清華大學計算機系。

此前,洪文逸、丁銘和鄭問迪也是 CogView 的作者。

論文的指導老師唐傑,清華大學計算機系教授,智源研究院學術副院長,主要研究方向是 AI、數據挖掘、機器學習和知識圖譜等。

對於 CogVideo,有網友表示仍然有些地方值得探究,例如 DALL-E2 和 Imagen 都有一些不同尋常的提示詞來證明它們是從 0 生成的,但 CogVideo 的效果更像是從數據集中“拼湊”起來的:

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

例如,獅子直接“用手”喝水的視頻,就不太符合我們的常規認知(雖然很搞笑):

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

(是不是有點像給鳥加上兩隻手的魔性表情包)

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

但也有網友指出,這篇論文給語言模型提供了一些新思路:

用視頻訓練可能會進一步釋放語言模型的潛力。因為它不僅有大量的數據,還隱含了一些用文本比較難體現的常識和邏輯。

“一句話生成視頻”AI 爆火:分辨率達到480×480 只支持中文輸入

目前 CogVideo 的代碼還在施工中,感興趣的小夥伴可以去蹲一波了~

項目&論文地址:

https://github.com/THUDM/CogVideo

(0)
上一篇 2022-06-03 14:50
下一篇 2022-06-03 14:50

相关推荐