Facebook的最新人工智能可以在沒有人類轉錄的情況下學習語音

據外媒報道，語音識別是科技巨頭的人工智能“機器中的一個重要齒輪”。這項技術為我們手機上的數字語音助理、汽車上的數字助理和家裡的智能音箱提供動力。但是，儘管它無處不在，語音識別仍然是一項進展中的工作。Facebook在訓練這些系統學習新語言的方式上預示着一項重大突破。該公司周五表示，它已經開發出一種建立不需要轉錄數據的語音識別工具的方法。

據Facebook稱，其全新的系統可以使技術擺脫對文本到語音輸入的依賴。這項耗時的任務涉及人類聆聽和轉錄數小時的音頻，這是一個單調的過程，必須對每種語言進行重複。而Facebook的 “無監督 “系統則純粹從語音音頻和未配對的文本中學習，使其更好地了解人類交流的聲音。

Facebook的模型基本上依賴於由 “生成器 “和 “辨別器 “組成的生成對抗網絡（GAN）之間的反饋迴路。前者“吐出”上傳的語音模式的代表，看起來完全是胡言亂語，直到它們被放到相應的鑒別器網絡中，後者充當了某種翻譯。同時，Facebook還輸入由人類編寫的額外文本，以幫助生成器收集計算機化和真實世界結果之間的差異。這個過程不斷重複，直到生成器的輸出與真實文本相匹配。

Facebook表示，它的方法使它能夠在沒有任何註釋數據集的情況下創建語音識別系統。該公司已經在斯瓦希里語、吉爾吉斯語（在中亞的吉爾吉斯斯坦共和國使用）和克里米亞韃靼語上測試了這個模型–被稱為Wav2vec-U（U代表無監督）–由於訓練數據的差異，這些國家都缺乏高質量的語音識別工具。

Facebook的測試表明，該系統提供的錯誤比下一個最佳的無監督方法少63%。它補充說，該工具與幾年前的監督系統一樣準確。為了加速其發展，Facebook在GitHub上分享了Wav2vec-U的代碼。

該公司表示，這一突破可以為全世界更多的語言和方言帶來語音識別系統，幫助實現技術的民主化。自然，它將從這種擴散中受益。在Facebook的28.5億月活躍用戶中，有76%以上位於北美和歐洲之外。而自動翻譯對其通過首選語言連接數十億人的目標至關重要。