完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

看這一頭蓬鬆的秀髮,加上帥氣的動作,你以為是在綠幕前拍大片?No、No、No……這其實是AI拿來視頻 實時摳圖后的效果。沒想到吧,實時視頻摳圖,現在能精細到 每一根髮絲

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

換到alpha通道再看一眼,不用多說,德芙打錢吧(手動狗頭)。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

這就是來自字節跳動實習生小哥的最新研究:實時高分辨率視頻摳圖大法。

無需任何輔助輸入,把視頻丟給這個名為 RVM的AI,它分分鐘就能幫你把人像高精度摳出,將背景替換成可以任意二次加工的綠幕。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

不信有這麼絲滑?我們用線上Demo親自嘗試了一波。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

相比之下,現在在線會議軟件里的摳圖,一旦頭髮遮住臉,人就會消失……

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

頭髮絲更是明顯糊了。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

難怪看得網友直言:

不敢想象你們把這隻AI塞進手機里的樣子。

不敢想象你們把這隻AI塞進手機里的樣子。

目前,這篇論文已經入選WACV 2022。

你也可以上手一試

目前,RVM已經在GitHub上開源,並給出了兩種試玩途徑:

於是我們也趕緊上手試了試。

先來看看效果:

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

首先來點難度低的。

對於這種人物在畫面中基本不移動的情況,RVM可以說是表現的非常好,和人工摳圖幾乎無差別。

現在,王冰冰進入動森都毫不違和了。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

於是開腦洞,也變得簡單了許多……

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

咳咳,言歸正傳。人物動作幅度加大會怎樣呢?

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

對於多人舞蹈視頻而言,RVM的表現也很nice。

即便動來動去、頭髮亂甩,也沒有影響它的摳圖效果。

只有在人物出現遮擋的情況下,才會出現瑕疵。

對比前輩方法MODNet,確實有不小的進步。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

不過我們也發現,如果視頻的背景較暗,就會影響RVM的發揮。

比如在這種背景光線昏暗的情況下,摳圖的效果就非常不盡人意了。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

可以看到,博主老哥的頭髮完全糊了。

而且身體的邊界線也不夠清晰。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

所以,如果你想自己拍視頻試玩,就一定要選擇光線充足的場景。

利用時間信息

那麼這樣的“魔法”,具體又是如何實現的?

照例,我們先來扒一扒論文~

實際上,有關視頻摳圖的算法如今已不鮮見,其中大多數採用的是將視頻中的每一幀作為獨立圖像來實現摳圖的方法。

不同與此,在這篇論文中,研究人員構建了一個循環架構,利用上了視頻的時間信息,在 時間一致性摳圖質量上取得了明顯改進。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

從上圖中可以看出,RVM的網絡架構包括3個部分:

特徵提取編碼器,用來提取單幀特徵;

循環解碼器,用於匯總時間信息;

深度引導濾波 (DGF)模塊,用於高分辨率上採樣。

其中,循環機制的引入使得AI能夠在連續的視頻流中自我學習,從而了解到哪些信息需要保留,哪些信息可以遺忘掉。

具體而言,循環解碼器採用了多尺度ConvGRU來聚合時間信息。其定義如下:

在這個編碼器-解碼器網絡中,AI會完成對高分辨率視頻的下採樣,然後再使用DGF對結果進行上採樣。

除此之外,研究人員還提出了一種新的訓練策略:同時使用摳圖和語義分割目標數據集來訓練網絡。

這樣做到好處在於:

首先,人像摳圖與人像分割任務密切相關,AI必須學會從語義上理解場景,才能在定位人物主體方面具備魯棒性。

其次,現有的大部分摳圖數據集只提供真實的alpha通道和前景信息,所以必須對背景圖像進行合成。但前景和背景的光照往往不同,這就影響了合成的效果。語義分割數據集的引入可以有效防止過擬合。

最後,語義分割數據集擁有更為豐富的訓練數據。

首先,人像摳圖與人像分割任務密切相關,AI必須學會從語義上理解場景,才能在定位人物主體方面具備魯棒性。

其次,現有的大部分摳圖數據集只提供真實的alpha通道和前景信息,所以必須對背景圖像進行合成。但前景和背景的光照往往不同,這就影響了合成的效果。語義分割數據集的引入可以有效防止過擬合。

最後,語義分割數據集擁有更為豐富的訓練數據。

經過這一番調教之後,RVM和前輩們比起來,有怎樣的改進?

從效果對比中就可以明顯感受到了:

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

另外,與MODNet相比,RVM 更輕更快

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

從下面這張表格中可以看出,在1080p視頻上RVM的處理速度是最快的,在512×288上比BGMv2略慢,在4K視頻上則比帶FGF的MODNet慢一點。研究人員分析,這是因為RVM除了alpha通道外還預判了前景。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

更直觀的數據是,在英偉達GTX 1080Ti上,RVM能以76FPS的速度處理4K視頻,以104FPS的速度處理HD視頻。

一作字節跳動實習生

這篇論文是一作 林山川在字節跳動實習期間完成的。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

他本科、碩士均畢業於華盛頓大學,曾先後在Adobe、Facebook等大廠實習。

2021年3月-6月,林山川在字節跳動實習。8月剛剛入職微軟。

事實上,林山川此前就曾憑藉AI摳圖大法拿下 CVPR 2021最佳學生論文榮譽獎

他以一作身份發表論文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

這一方法能夠以30FPS的速度處理4K視頻,以60FPS的速度處理HD視頻。

值得一提的是,Background Matting這一系列方法不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收錄。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

兩次論文的通訊作者都是華盛頓大學副教授Ira Kemelmacher-Shlizerman,她的研究方向為計算機視覺、計算機圖形、AR/VR等。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

此外,本次論文的二作為 Linjie Yang,他是字節跳動的研究科學家。本科畢業於清華大學,在香港中文大學獲得博士學位。

完美摳圖王冰冰 字節實習生開發的AI實現4K60幀視頻實時摳圖

對了,除了能在Colab上試用之外,你也可以在網頁版上實時感受一下這隻AI的效果,地址拿好:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub地址:

https://github.com/PeterL1n/RobustVideoMatting

論文地址:

https://arxiv.org/abs/2108.11515

參考鏈接:

[R] Robust High-Resolution Video Matting with Temporal Guidance from MachineLearning

(0)
上一篇 2021-08-30 15:36
下一篇 2021-08-30 15:37

相关推荐