公平衡量:MIT研究人員稱機器學習的可解釋性充滿偏見

麻省理工學院(MIT)的科學家們,在近期的一篇新論文中提到 —— 幫助用戶確定機器學習模型的預測是否可信的方法,對弱勢群體來說可能不太準確。由於解釋方法可能存在長期偏見,弱勢群體面臨的結果或變得更加糟糕。

1.png

研究配圖 – 1:非公正全局解釋示例(arXiv)

使用機器學習算法的時候,有時會造成相當高的風險 —— 比如通過模型來預測哪些候選認更有可能通過法律考試,然後在讓校方在招生時優先錄取哪些學生。

即使理想很豐滿,但現實往往有些骨感 —— 這些複雜模型動輒涉及數百萬個參數,而 AI 研究人員幾乎不可能完全了解其運作機理。

2.png

研究配圖 – 2:神經網絡黑箱模型模擬

此外科學家有時也會通過創建預測的簡單近似模型來簡化解釋,但這些易於理解的近似值,是否又能夠公平承托所有人的信任呢?

假設某種解釋方法讓男性獲得較女性更優的近似值、或讓白人較有色人種更具優勢,這種情況就會在兩組對照時產生潛在的巨大差異。

3.png

研究配圖 – 3:有無健壯訓練子組之間的保真度差距

實踐中,這意味着如果女性申請人的近似質量較低,則解釋與模型之間的預測可能存在不匹配,進而導致招生官員錯誤地回絕了更多女性候選認。

為了解這些公平差距到底有多普遍,MIT 研究人員嘗試了多種技術來平衡競爭環境。但這麼做只能適當縮小一些差距,而無法徹底根除。

4.png

研究配圖 – 4:即使底層黑箱足夠公正,非零保真差距仍存在。

研究一作、MIT 計算機科學與人工實驗室(CSAIL)健康機器學習小組研究生 Aparna Balagopalan 表示:

在現實世界中,這意味着人們可能會錯誤地相信某些子群(而不是其它子群)的預測。

正因如此,解釋模型的改進、以及將相關細節傳達給最終用戶,也顯得同樣重要。

只有了解到這些差距的存在,用戶才會更加平和地接受並調節其對結果的預期。

5.png

研究配圖 – 5:決策保真差的神經網絡模擬

研究人員發現,所有數據集和解釋模型都存在明顯的保真度差距。若是群體的保真度通常要低得多,某些情況下可能高達 21% 。

6.png

研究配圖 – 6:黑箱與解釋模型之間的 DP 差距與剩餘誤差

數據集在種族子組之間的保真度差距,近似值的平均錯誤率也高出了 7% 。假如有 10000 名申請者,那很大一部分可能被錯誤地拒絕。

7.png

研究配圖 – 7:更少特徵的稀疏模型的局部跨子組保真度差距

Ghassemi 補充道,他們對這些普遍存在於所有評估數據集中的保真度差距感到震驚,但也很難過分強調如何對相關機器學習模型進行修飾。

8.png

研究配圖 – 8:稀疏模型往往有着更大的平均逼近誤差

在確定了保真度的差距后,研究人員嘗試訓練了解釋模型,以了解其識別數據集中可能容易出現低保真度的區域,然後對這些樣本給予更高的關注度。

9.png

研究配圖 – 9:保真度差距與準確性,在一系列抽樣方差中持續存在。

此外他們嘗試了使用所有子組的相同數量樣本的平衡數據集,這些強大的訓練策略確實減少了一些保真度差距,但終究還是無法徹底消除。

10.png

研究配圖 – 10:有無健壯 LIME 和基於樹的模型訓練子組之間的差距

研究人員隨後修改了解釋模型,以探索為何會凸顯保真度差距。分析表明,解釋模型可能會間接地使用受保護、甚至隱藏的群體信息(比如性別或種族標籤)。

11.png

研究配圖 – 11:解釋保真度與組間決策準確性差距的正相關性

最後,MIT 研究人員希望能夠在未來的工作中深入探索相關難題,並且計劃進一步研究真實世界決策背景下的保真度差距的影響。

(0)
上一篇 2022-07-06 17:49
下一篇 2022-07-06 17:49

相关推荐