“跨次元”目標檢測模型hold住各種畫風 還能識別漫畫中物品

目標檢測種類多達20000+種的AI,你見過嗎?不僅準確“揪出”每個物體所在的位置,分類效果非常準確:

圖片

插畫版賽博恐龍也沒問題:

圖片

甚至還能檢測雜誌封面甚至漫畫中的物體!

圖片

這也是把目標檢測給玩出花來了,據作者表示模型在長尾問題等細節上的處理非常好,像獅子和狐狸這種少樣本也能準確識別:

圖片

這項研究來自Meta AI和德克薩斯大學奧斯汀分校,一作是著名目標檢測框架CenterNet的作者、復旦校友Xingyi Zhou。

圖片

一起來看看。

可識別“跨次元”物體

這篇論文提出了一種新的名為Detic的方法,用來解決目標檢測無法用到圖像級標籤(給一整張圖打標籤,標註裡面有什麼物體)的問題。

圖片

此前的目標檢測方法,通常是一個檢測框里一個物體:

這種方法有一個問題,就是沒辦法利用整個圖像級標籤,只能用單個物體的圖片進行訓練。

也有一些研究想出了一種新方法,搞個弱監督學習,試圖讓AI自己學會將圖像級的標籤,去對應錨定框裡面有什麼物體,但實際上這種方法的效果也不太好。

Detic的方法是採用目標檢測數據(a)和圖像標籤數據(b)對Detic進行混合訓練。

其中,在用目標檢測數據訓練Detic時,同時對圖像分類模塊W和目標檢測模塊B進行訓練,但只用標籤數據對圖像分類模塊W進行訓練。

圖片

訓練的數據集採用的是ImageNet,事實證明模型在訓練后無需微調,就能很好地適應到LVIS等數據集,相對之前的一些模型都達到了不錯的效果:

圖片

論文表示,Detic能分類的圖片類型也是多種多樣,從真實照片到賽博恐龍插畫這樣的“跨次元”作品都能識別:

圖片

這立刻吸引了不少網友來玩。

在線Demo可玩

有網友用梵高的世界名畫試了試。

圖片

放大一點來看,藝術加工后的椅子、人和桌子也能被識別:

圖片

還有用二次元的龍貓進行識別的,除了龍貓本身被錯認成貓頭鷹以外,其他的雨傘和靴子都認得不錯:

圖片

我們也隨便用一個鐘錶櫃的照片試了試,在線Demo的檢測時間稍微有點久,大約需要6分鐘左右,但效果還不錯:

圖片

細看的話還是能發現一些瑕疵,例如把部分手錶誤認成轉速計、以及懷錶和時鐘,以及也有一兩塊手錶沒有被檢測出來。

不過,即使在二次元和插畫中,這個AI能識別的物體,至少也需要在真實世界出現過。

例如,超出20000個分類的物體,如噴火龍和皮卡丘,就不在AI的監測範圍內了,全部被認成了猴子(狗頭):

將這些二次元角色也加入AI訓練數據集中,不知能否取得同樣的檢測效果。

(0)
上一篇 2022-01-16 16:04
下一篇 2022-01-16 16:04

相关推荐