引入對抗性訓練可以讓人工智能更難被攻擊和愚弄

洛斯阿拉莫斯國家實驗室的研究人員開發了一種比較神經網絡的新方法，該方法着眼於人工智能的”黑箱”，以幫助研究人員理解神經網絡的行為。神經網絡可以識別數據集中的模式，並被用於虛擬助手、面部識別系統和自動駕駛汽車等不同的應用中。

洛斯阿拉莫斯網絡系統高級研究小組的研究員海頓-瓊斯說：”人工智能研究界不一定完全了解神經網絡在做什麼；它們給了我們很好的結果，但我們不知道如何或為什麼，我們的新方法在比較神經網絡方面做得更好，這是朝着更好地理解人工智能背後的數學的關鍵一步。”

洛斯阿拉莫斯的研究人員正在研究比較神經網絡的新方法。這張圖片是用一個叫穩定擴散的人工智能軟件創建的，使用的提示是”窺視神經網絡的黑匣子”。

瓊斯是最近在人工智能不確定性會議上發表的一篇論文的主要作者。這篇論文除了研究網絡的相似性之外，也是描述魯棒神經網絡行為的重要一步。

神經網絡是高性能的，但也是脆弱的。例如，自主車輛採用神經網絡來識別道路標誌。在完美的情況下，它們相當善於這樣做。然而，神經網絡可能會錯誤地檢測到一個標誌，如果有哪怕是最輕微的異常，如停止標誌上的貼紙就可以形成對人工智能的攻擊，並且後者並不會因此而停下來。

因此，為了改進神經網絡，研究人員正在尋找提高網絡魯棒性的策略。一種最先進的方法是在網絡被訓練時對其進行”攻擊”。人工智能被訓練成可以忽略研究人員有目的地引入的異常情況。從本質上講，這種被稱為對抗性訓練的技術，使欺騙網絡變得更加困難。

在一個令人驚訝的發現中，瓊斯和他在洛斯阿拉莫斯的合作者雅各布-斯普林格和加勒特-凱尼恩，以及瓊斯的導師賈斯頓-摩爾，將他們新的網絡相似性指標應用於對抗性訓練的神經網絡。他們發現，隨着攻擊嚴重程度的增加，對抗性訓練導致計算機視覺領域的神經網絡收斂到非常相似的數據表示，而不考慮網絡架構。

“我們發現，當我們訓練神經網絡對對抗性攻擊具有魯棒性時，它們開始做同樣的事情，”瓊斯說。

工業界和學術界一直在努力尋找神經網絡的”正確架構”，但洛斯阿拉莫斯團隊的發現表明，引入對抗性訓練后，這一搜索空間大大縮小。因此，人工智能研究界可能不需要花那麼多時間去探索新的架構，因為他們知道對抗性訓練會使不同的架構收斂到類似的解決方案。

“通過發現健壯的神經網絡彼此相似，我們正在使人們更容易理解健壯的人工智能可能真的如何工作。”瓊斯說：”我們甚至可能會發現關於人類和其他動物的感知是如何發生的暗示。