用AI對抗AI：科學家研發新技術通過背景噪音迷惑AI助手

Big Brother is Watching You（老大哥正在看着你）。這句話來自於英國著名政治小說《一九八四》，在故事設定中隨處可見該宣傳標語，表示四周都由監聽設備和秘密警察。

圖片來自於 Jason Reed/The Daily Dot

當代，公司使用“bossware”來監聽員工的上班情況；不少“spyware”應用可以記錄手機通話；以亞馬遜 Echo 為代表的智能家居設備可以記錄你的日常對話。

那麼如何抵禦這些無孔不入的監聽呢？最新研發的“Neural Voice Camouflage”技術有望提供幫助。可以通過在你說話時在背景中生成自定義音頻噪音來迷惑 AI 助手。

這個新系統使用了“對抗性攻擊”。該系統部署了機器學習的方法，通過算法在數據中尋找模式，然後調整聲音覆蓋人的聲音。從本質上講，你利用一個人工智能來愚弄另一個。

然而，這個過程並不像它聽起來那麼容易。機器學習的人工智能需要處理整個聲音片段，然後才知道如何調整它，當你想實時偽裝時，這並不可行。

因此，在新的研究中，研究人員教會了一個神經網絡，一個受大腦啟發的機器學習系統，以有效地預測未來。科學家對其進行了許多小時的語音記錄訓練，因此它可以不斷地處理 2 秒鐘的音頻片段，並偽裝出接下來可能說的話。

AI 會聆聽剛才所說的話，併發出聲音，這些聲音會擾亂許多可能跟隨的短語。對人耳來說，音頻聽起來像是背景噪音，口語很容易理解，但機器卻難以理解。

例如，如果有人剛說“enjoy the great feast”（盡情享受盛宴），雖然系統無法預測他接下來會說什麼。但是，通過說話情境，以及說話人的聲音特徵，它產生的聲音會擾亂一系列可能的後續短語。這包括接下來實際發生的事情；這裡，同一個說話者說：“that’s being cooked”（這是剛烹飪好的）。

對人類聽眾來說，這種音頻偽裝聽起來像是背景噪音，他們在理解口語方面沒有問題。但是對於機器來說卻比較困難。

科學家們將他們系統的輸出疊加到錄製的語音上，因為它被直接輸入到可能被偷聽者用來轉錄的自動語音識別（ASR）系統之一。該系統將 ASR 軟件的單詞錯誤率從 11.3% 提高到 80.2%。例如“I’m nearly starved myself, for this conquering kingdoms is hard work”，被轉錄為”im mearly starme my scell for threa for this conqernd kindoms as harenar ov the reson”。

被白噪聲掩蓋的語音和競爭性對抗性攻擊（缺乏預測能力，只用過晚半秒播放的噪聲掩蓋它剛剛聽到的內容）的錯誤率分別只有12.8%和20.5%。這項工作在上個月的國際學習表徵會議上發表了一篇論文，該會議對提交的手稿進行同行評審。

即使當ASR系統被訓練成轉錄受神經語音偽裝干擾的語音時（可以想象竊聽者會採用這種技術），其錯誤率仍為 52.5%。一般來說，最難打亂的詞是短的，如”the”，但這些是對話中最不容易暴露的部分。

研究人員還在現實世界中測試了這種方法，通過與麥克風在同一房間的一組揚聲器播放與偽裝相結合的語音記錄。它仍然有效。例如，”I also just got a new monitor”被轉錄為”with reasons with they also toscat and neumanitor”。