公平衡量：MIT研究人員稱機器學習的可解釋性充滿偏見

2022-07-06 17:49 • 熱點資訊

麻省理工學院（MIT）的科學家們，在近期的一篇新論文中提到 —— 幫助用戶確定機器學習模型的預測是否可信的方法，對弱勢群體來說可能不太準確。由於解釋方法可能存在長期偏見，弱勢群體面臨的結果或變得更加糟糕。

研究配圖 – 1：非公正全局解釋示例（arXiv）

使用機器學習算法的時候，有時會造成相當高的風險 —— 比如通過模型來預測哪些候選認更有可能通過法律考試，然後在讓校方在招生時優先錄取哪些學生。

即使理想很豐滿，但現實往往有些骨感 —— 這些複雜模型動輒涉及數百萬個參數，而 AI 研究人員幾乎不可能完全了解其運作機理。

研究配圖 – 2：神經網絡黑箱模型模擬

此外科學家有時也會通過創建預測的簡單近似模型來簡化解釋，但這些易於理解的近似值，是否又能夠公平承托所有人的信任呢？

假設某種解釋方法讓男性獲得較女性更優的近似值、或讓白人較有色人種更具優勢，這種情況就會在兩組對照時產生潛在的巨大差異。

研究配圖 – 3：有無健壯訓練子組之間的保真度差距

實踐中，這意味着如果女性申請人的近似質量較低，則解釋與模型之間的預測可能存在不匹配，進而導致招生官員錯誤地回絕了更多女性候選認。

為了解這些公平差距到底有多普遍，MIT 研究人員嘗試了多種技術來平衡競爭環境。但這麼做只能適當縮小一些差距，而無法徹底根除。

研究配圖 – 4：即使底層黑箱足夠公正，非零保真差距仍存在。

研究一作、MIT 計算機科學與人工實驗室（CSAIL）健康機器學習小組研究生 Aparna Balagopalan 表示：

在現實世界中，這意味着人們可能會錯誤地相信某些子群（而不是其它子群）的預測。

正因如此，解釋模型的改進、以及將相關細節傳達給最終用戶，也顯得同樣重要。

只有了解到這些差距的存在，用戶才會更加平和地接受並調節其對結果的預期。

研究配圖 – 5：決策保真差的神經網絡模擬

研究人員發現，所有數據集和解釋模型都存在明顯的保真度差距。若是群體的保真度通常要低得多，某些情況下可能高達 21% 。

研究配圖 – 6：黑箱與解釋模型之間的 DP 差距與剩餘誤差

數據集在種族子組之間的保真度差距，近似值的平均錯誤率也高出了 7% 。假如有 10000 名申請者，那很大一部分可能被錯誤地拒絕。

研究配圖 – 7：更少特徵的稀疏模型的局部跨子組保真度差距

Ghassemi 補充道，他們對這些普遍存在於所有評估數據集中的保真度差距感到震驚，但也很難過分強調如何對相關機器學習模型進行修飾。

研究配圖 – 8：稀疏模型往往有着更大的平均逼近誤差

在確定了保真度的差距后，研究人員嘗試訓練了解釋模型，以了解其識別數據集中可能容易出現低保真度的區域，然後對這些樣本給予更高的關注度。

研究配圖 – 9：保真度差距與準確性，在一系列抽樣方差中持續存在。

此外他們嘗試了使用所有子組的相同數量樣本的平衡數據集，這些強大的訓練策略確實減少了一些保真度差距，但終究還是無法徹底消除。

研究配圖 – 10：有無健壯 LIME 和基於樹的模型訓練子組之間的差距

研究人員隨後修改了解釋模型，以探索為何會凸顯保真度差距。分析表明，解釋模型可能會間接地使用受保護、甚至隱藏的群體信息（比如性別或種族標籤）。

研究配圖 – 11：解釋保真度與組間決策準確性差距的正相關性

最後，MIT 研究人員希望能夠在未來的工作中深入探索相關難題，並且計劃進一步研究真實世界決策背景下的保真度差距的影響。

學習機器預測

赞 (0)

Intel回歸處理器重心無人機業務賣給馬斯克弟弟

上一篇 2022-07-06 17:49

BOE OLED面板正式通過蘋果iPhone 14認證

下一篇 2022-07-06 17:49

熱點資訊

今年美國“假日季”電商銷售額漲幅預計創6年來新低

據報道，市場研究公司Adobe Analytics今日稱，今年美國“假日季”電商銷售額漲幅預計將創下6年來的最低水平。美國的“假日季”指每年的第四季度，而感恩節（每年11月的最後一…

2021-10-20
熱點資訊

被嫌棄的“IE” 的一生

在互聯網行業，最令人害怕的不是被用戶罵，而是產品死了，人們連一點反應都沒有。Internet Explorer，微軟的 IE瀏覽器，大概就是這麼一款產品。6 月 16 日，Wind…

2022-06-16
熱點資訊

美聯邦通信委員會：拆換華為、中興設備成本遠超預算

6月16日消息，據國外媒體報道，美國聯邦通信委員會（FCC）告知國會，因拆除華為、中興等所謂“威脅美國國家安全”的中資企業設備而尋求獲得補償的申請中，有三分之二的申請不符合要求。 …

2022-06-16
熱點資訊

不只是以太坊測試發現RTX 3080 Ti限制多種數字貨幣挖礦

本周，RTX 3080 Ti首發開賣，國內定價8999元，結果如你所料，秒售罄。實際上，RTX 3080 Ti從GPU層面對挖礦進行了限制，此前NVIDIA表示針對的是以太坊。有機…

2021-06-06
熱點資訊

Poly Network跨鏈黑客攻擊事件已造成至少6.11億美元的損失

跨鏈協議 Poly Network，已在迄今為止最大的 DeFine 黑客攻擊事件中被竊取至少 6.11 億美元。在今日的一條推文中，官方很遺憾地宣布 —— #PolyNetwor…

2021-08-11
熱點資訊

清華3天2篇CELL 都跟細胞“新大陸”有關

5月25日、27日，清華大學連續有兩篇論文在《細胞》雜誌上線。第一篇由腦與認知科學研究院、自動化系戴瓊海院士課題組和生命學院俞立課題組合作完成；第二篇則由俞立課題組領銜完成。兩篇論…

2021-05-28
熱點資訊

Salesforce：願為因德州最嚴墮胎法而想要搬遷的員工提供幫助

據外媒報道，Salesforce表示，在德克薩斯州通過了美國最嚴格的墮胎法之一后，如果員工對獲得生殖保健這件事情感到擔憂那麼公司將幫助他們搬遷。“這些都是非常私人的問題，直接影響着…

2021-09-12
熱點資訊

美國確診第二例奧密克戎毒株感染病例曾到訪紐約

美國明尼蘇達州衛生部門2日表示，該州出現首例新型變異病毒奧密克戎毒株感染病例，這名患者曾在紐約市參加動漫節活動。據美國全國廣播公司報道，一名明尼蘇達州居民2日被當地衛生部門確認為美…

2021-12-03
熱點資訊

SE表示其歐美工作室出售不會用於投資NFT和區塊鏈

史克威爾表示，出售其歐美開發部門的大部分資金將不會再投資於NFTs和區塊鏈。5月2日，Gearbox所有者Embracer集團宣布將以3億美元的價格收購原SE旗下的水晶動力、Eid…

2022-06-07
熱點資訊

九價、三針、二十六歲：被“HPV焦慮”圍獵的女孩們

九價難求。在小紅書上，成功預約並注射HPV九價疫苗的女性，會自稱“上岸”。一款針對人乳頭瘤病毒的疫苗，成為房子、車子、編製之後的又一個新型奢侈品。 HPV，正在成為年輕人的新型人生…

2022-08-27