讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

只要稍微動點手腳,就會給AI模型的魯棒性帶來挑戰。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

現在,Facebook AI開源了用於數據增強的新Python庫——AugLy

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

它支持音頻、圖像、視頻和文本4模態,提供了超過100種數據增強功能,可以對輸入內容進行多種處理。

比如,改變文字的大小寫、字體、編碼方式,給文本添加標點、調整字母位置、模擬錯別字。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

以及裁剪、旋轉圖片,給圖片加文字、增加飽和度、增加亮度、改變清晰度等等……

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

這一項目已經獲得1.8k顆星,並且登上了GitHub熱榜。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

讓AI識別“截屏轉發”

AugLy的目的是涵蓋現實網絡中具體的數據增強,用來創建樣本,從而訓練和測試模型。

根據Facebook和Instagram等平台上的生活圖像和視頻,AugLy在統一的庫和API下轉換項目的所有數據,提供了超過100種數據增強方式。

其中包括4個子庫,分別對應音頻、圖像、視頻和文本4種模態。

這些子庫包括基於函數和類的變換、組合,並且可以選擇所應用的元數據及其強度

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

圖片處理為例,AugLy可以對圖片進行裁剪、旋轉、添加噪聲、模糊處理、灰度處理等。

就像這樣:

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

或者圖片或視頻上疊加文字和emojis:

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

除了包含許多通用的增強功能,AugLy更大的特點在於——提供“互聯網用戶”類型的數據增強方式。

比如,把圖片轉換成屏幕截圖的樣式,更加符合生活中常見的樣子。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

使用AugLy數據增強訓練AI模型,這些內容相同而形式不同的信息,能幫助模型提高魯棒性。

複製檢測言論檢測版權侵權等工作中,訓練后AI可以對用戶上傳的內容,進行更精確的識別。

此外,AugLy已經被用於Deepfake檢測挑戰賽,用來評估模型的魯棒性。

網友熱議

這個新的Python庫也受到了網友們的關注,在Reddit上獲得了350+贊。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

有網友提出疑問:文本模塊只支持英語嗎?

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

一位熱心網友表示:

看起來文本模塊在很大程度上是對nlpaug的一種包裝,因此AugLy支持其他語言,只需修改幾個參數。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

也有網友提出,為什麼不直接把它加到pytorch里?

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

對此,有人回復道:

這樣在安裝的時候會很慢,有需要的的人單獨安裝就可以了,沒必要讓pytorch那麼臃腫。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

AugLy要求Python 3.6以上版本,通過pip安裝,但是在虛擬環境和系統環境中,還需要用conda和sudo apt-get命令單獨安裝python-magic。

比較遺憾的是,AugLy目前不支持輸入批量圖像,不過開發人員表示,以後將會完善這一功能。

讓AI精準識別盜版 臉書開源數據增強庫支持圖文音視頻

(0)
上一篇 2021-07-18 16:26
下一篇 2021-07-18 16:27

相关推荐