“一句話生成視頻”AI 爆火：分辨率達到480×480 只支持中文輸入

2022-06-03 14:50 • 熱點資訊

一周不到，AI 畫師又“進階”了，還是一個大跨步 —— 直接 1 句話生成視頻的那種。輸入“一個下午在海灘上奔跑的女人”，立刻就蹦出一個 4 秒 32 幀的小片段：

又或是輸入“一顆燃燒的心”，就能看見一隻被火焰包裹的心：

這個最新的文本-視頻生成 AI，是清華 & 智源研究院出品的模型 CogVideo。

Demo 剛放到網上就火了起來，有網友已經急着要論文了：

CogVideo“一脈相承”於文本-圖像生成模型 CogView2，這個系列的 AI 模型只支持中文輸入，外國朋友們想玩還得藉助Google翻譯：

看完視頻的網友直呼“這進展也太快了，要知道文本-圖像生成模型 DALL-E2 和 Imagen 才剛出”

還有網友想象：照這個速度發展下去，馬上就能看到 AI 一句話生成 VR 頭顯里的 3D 視頻效果了：

所以，這隻名叫 CogVideo 的 AI 模型究竟是什麼來頭？

生成低幀視頻后再插幀

團隊表示，CogVideo 應該是當前最大的、也是首個開源的文本生成視頻模型。

在設計模型上，模型一共有 90 億參數，基於預訓練文本-圖像模型 CogView2 打造，一共分為兩個模塊。

第一部分先基於 CogView2，通過文本生成幾幀圖像，這時候合成視頻的幀率還很低；

第二部分則會基於雙向注意力模型對生成的幾幀圖像進行插幀，來生成幀率更高的完整視頻。

在訓練上，CogVideo 一共用了 540 萬個文本-視頻對。

這裡不僅僅是直接將文本和視頻匹配起來“塞”給 AI，而是需要先將視頻拆分成幾個幀，並額外給每幀圖像添加一個幀標記。

這樣就避免了 AI 看見一句話，直接給你生成幾張一模一樣的視頻幀。

其中，每個訓練的視頻原本是 160×160 分辨率，被 CogView2 上採樣（放大圖像）至 480×480 分辨率，因此最後生成的也是 480×480 分辨率的視頻。

至於 AI 插幀的部分，設計的雙向通道注意力模塊則是為了讓 AI 理解前後幀的語義。

最後，生成的視頻就是比較絲滑的效果了，輸出的 4 秒視頻幀數在 32 張左右。

在人類評估中得分最高

這篇論文同時用數據測試和人類打分兩種方法，對模型進行了評估。

研究人員首先將 CogVideo 在 UCF-101 和 Kinetics-600 兩個人類動作視頻數據集上進行了測試。

其中，FVD（Fréchet 視頻距離）用於評估視頻整體生成的質量，數值越低越好；IS（Inception score）主要從清晰度和生成多樣性兩方面來評估生成圖像質量，數值越高越好。

整體來看，CogVideo 生成的視頻質量處於中等水平。

但從人類偏好度來看，CogVideo 生成的視頻效果就比其他模型要高出不少，甚至在當前最好的幾個生成模型之中，取得了最高的分數：

具體來說，研究人員會給志願者一份打分表，讓他們根據視頻生成的效果，對幾個模型生成的視頻進行隨機評估，最後判斷綜合得分：

CogVideo 的共同一作洪文逸和丁銘，以及二作鄭問迪，三作 Xinghan Liu 都來自清華大學計算機系。

此前，洪文逸、丁銘和鄭問迪也是 CogView 的作者。

論文的指導老師唐傑，清華大學計算機系教授，智源研究院學術副院長，主要研究方向是 AI、數據挖掘、機器學習和知識圖譜等。

對於 CogVideo，有網友表示仍然有些地方值得探究，例如 DALL-E2 和 Imagen 都有一些不同尋常的提示詞來證明它們是從 0 生成的，但 CogVideo 的效果更像是從數據集中“拼湊”起來的：

例如，獅子直接“用手”喝水的視頻，就不太符合我們的常規認知（雖然很搞笑）：

（是不是有點像給鳥加上兩隻手的魔性表情包）

但也有網友指出，這篇論文給語言模型提供了一些新思路：

用視頻訓練可能會進一步釋放語言模型的潛力。因為它不僅有大量的數據，還隱含了一些用文本比較難體現的常識和邏輯。

目前 CogVideo 的代碼還在施工中，感興趣的小夥伴可以去蹲一波了~

項目&論文地址：

https://github.com/THUDM/CogVideo

ai 視頻輸入

赞 (0)

邊疆航空與精靈航空達成協議併購失敗將支付2.5億美元分手費

上一篇 2022-06-03 14:50

Meta AI戰略大轉型：組織結構拆散負責人離職

下一篇 2022-06-03 14:50

熱點資訊

特斯拉反擊：訴溫州車主一審獲勝並要求兩維權車主賠超千萬

10月11日，特斯拉方面提供的一份文件顯示，特斯拉（上海）有限公司（以下簡稱“特斯拉”）作為原告起訴被告溫州車主陳某涉名譽權糾紛一案在一審中獲得溫州市鹿城區人民法院支持，法院判令被…

2021-10-11
熱點資訊

袁隆平團隊“巨型稻”在天津正式插秧

據@央視新聞報道，經過一段時間的大棚育苗，日前，由袁隆平團隊帶來的“巨型稻”開始在天津市寧河區正式插秧，這也是“巨型稻”在京津冀地區的首次大面積試種。“巨型稻”秧苗與普通水稻秧苗…

2022-05-25
熱點資訊

Google下一代3D聊天亭Starline邁入新階段：向更多企業開放

Google 計劃在今年晚些時候向更多企業開放 Project Starline，這是下一代 3D 視頻聊天亭。根據今天更新的官方博文，在 T-Mobile 和 Salesforc…

2022-10-12
熱點資訊

任天堂Switch將配NVIDIA Ampere GPU：支持光追和DLSS

根據 NVIDIA 公司近期暴露的信息，讓我們了解到很多關於任天堂 Switch 2 主機的規格信息。據悉任天堂的新款遊戲主機使用 NVIDIA 的 Ampere GPU，支持光線…

2022-03-02
熱點資訊

《阿凡達2：水之道》曝光新劇照傑克和奈蒂莉教訓熊孩子

《阿凡達2》曝光新劇照，傑克和奈蒂莉一家，看場景是父母在教訓熊孩子了。《阿凡達2：水之道》由詹姆斯·卡梅隆執導，薩姆·沃辛頓、佐伊·索爾達娜等主演，故事發生在第一部的14年之後，前…

2022-07-05
熱點資訊

京東方帶飛上游“小弟” 供應鏈密集IPO 4家登科創板

8 月 13 日消息，就在兩天前，天風證券蘋果分析師郭明錤發布報告稱，京東方首次殺入蘋果高端產品線，將為明年的 MacBook Air 供應 Mini LED 屏幕。另一邊，驅動 …

2021-08-13
熱點資訊

The Exploration Company正在開發一種全新的可重複利用軌道航天器

Hélène Huby在最近的一次採訪中表示，歐洲的太空領域比美國的太空領域晚了約5到10年。她當然有資格做出這樣的評估。Huby的大部分職業生涯是在歐洲的航空航天公司空客公司度過…

2022-07-29
熱點資訊

育碧攜手騰訊天美打造：中國背景《刺客信條》官宣

《刺客信條》作為一個以全球各地歷史為背景舞台的IP，以中國為背景的遊戲卻只有一款小體量的《編年史》作品，一直是一件令人遺憾的事情。今天凌晨，育碧在遊戲發布會上公布了多款《刺客信條》…

2022-09-11
熱點資訊

SpaceX要求美國FCC將394英尺高火星火箭測試時間延長6個月

在本周早些時候向聯邦通信委員會（FCC）提交的一份文件中，太空探索技術公司（SpaceX）請求該機構將其測試星艦運載火箭平台的特別臨時授權延長至8月以後。太空探索技術公司的 &#8…

2022-07-22
熱點資訊

[圖]CISA示警兩個Windows和UnRAR漏洞已被黑客利用

美國網絡安全和基礎設施安全局 (CISA)基於目前掌握的證據，在已知可利用漏洞（Known Exploited Vulnerabilities）目錄下新增了 2 個新的漏洞。其中 …

2022-08-11