阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

來源:互聯網白話

作者:童蔚

這波AIGC(利用人工智能技術來生成內容)的熱潮,已經開卷視頻了。

上個月初,白話君說過,阿里達摩院正在研發類ChatGPT的對話機器人,當時已開放給公司內員工測試。

沒想到,一個多月後,先露面的是文本生成視頻。

就在3月30日,阿里達摩院低調地在魔搭社區(ModelScope)放出了“文本生成視頻大模型”。魔搭,是達摩院在去年11月推出的開源模型平台。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

根據官方介紹,目前這個模型,由文本特徵提取、文本特徵到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這3個子網絡組成,整體模型參數約17億。支持英文輸入。擴散模型採用Unet3D結構,通過從純高斯噪聲視頻中,迭代去噪的過程,實現視頻生成的功能。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

看不太懂?沒關係。會玩就行。

白話君剛才試了一把。輸入提示詞:A panda eating bamboo on a rock,等了差不多77秒,收到一段2秒鐘的視頻。 感受一下~

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

如果換成中文:一隻大熊貓坐在岩石上吃竹子,出來的結果就是一隻類似於貓咪的小動物。果然,目前還不支持中文。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

再來幾個~

A goldendoodle playing in a park by a lake.(一隻金貴犬在湖邊的公園玩耍)

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

A dog wearing a Superhero outfit with red cape flying through the sky.(一隻身着超級英雄裝和紅斗篷的狗正在天上飛)

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

Monkey learning to play the piano.(猴子正在學習彈鋼琴)

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

從試玩的結果來看,目前能生成的視頻長度多在2-4秒,生成等候時間從20多秒到1分多鐘不等。

感興趣的,不妨自己去體驗一下(試玩地址:https://modelscope.cn/studios/damo/text-to-video-synthesis/summary)

達摩院的這個發布,也在國內外的社交平台上吸引了一波嘗鮮的網友。因為玩的人太多,有微博網友說,連刷20次都沒擠進去。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

另外,昨日凌晨,總部位於紐約的人工智能初創公司Runway也發布了一種從文本到視頻轉化的AI模型Gen-2。

上個月,這家曾參與創建Stable Diffusion的公司推出過模型Gen-1,能通過文本提示或參考圖像指定的風格,將現有視頻轉化為新視頻。

比如將“街道上的人”變成“粘土木偶”,只需要一行提示詞。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

從命名上就能看出,Gen-2是Gen-1的升級版,能從零開始產出視頻。目前,我們只能看到Runway分享出來的一些演示片段。根據該公司的說法,未來幾周會提供廣泛訪問試用。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!
阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

早在去年,谷歌和Meta都展示了各自在文本轉視頻上的嘗試,利用AI生成泰迪熊洗碗和在湖上泛舟等視頻。但這兩家公司都沒有宣布將相關技術推進到研究階段以外的計劃。

阿里達摩院低調上線文本生成視頻大模型,可以試玩!AI開始卷視頻了!

文本生成視頻,最理想的效果就是用戶給出提示詞,系統自動生成任何風格的對應視頻。

不過,從目前此類模型生成視頻的等待時間,畫面的真實度、清晰度以及長度等各方面來看,距離產出令人滿意的視頻還有很大距離。

事實上,與圖像編輯相比,視頻編輯是一個更有挑戰性的領域。扎克伯格此前就在推特上說過,AI模型能從生成靜態像素,發展到預測每個像素隨着時間推移發生的變化,這在技術上已經是一個突破。

當然了,也許用不了多久,AI就會解決現存的這些缺陷。將來,哪怕完全不懂視頻製作的人,也能上手做視頻,且可能是批量產出。

本文鏈接:https://www.8btc.com/article/6810506

轉載請註明文章出處

(0)
上一篇 2023-03-28 03:37
下一篇 2023-03-28 03:38

相关推荐