科學家擔心人工智能只會把我們帶到了它想帶去的地方

我們觀看、閱讀和購買的許多東西都是通過YouTube、Twitter和亞馬遜等網站的推薦系統進入我們的視野。算法進行了個性化處理，旨在獲得廣告瀏覽量、點擊量或購買量。有時，AI的建議讓我們感到沮喪，似乎他們根本不了解我們，或者太了解我們，預測什麼會讓我們浪費時間或進入焦慮和錯誤信息的兔子洞。

但是，一個更隱蔽的動態可能也在起作用。推薦系統不僅可能根據我們最令人遺憾的偏好進行調整，而且實際上塑造了我們喜歡的東西，使偏好變得更加令人遺憾。新的研究提出了一種衡量和減少這種操縱的方法。推薦系統通常使用一種叫做機器學習的人工智能，它可以發現數據中的模式，根據我們過去所做的事情來提供選擇，猜測我們現在會做什麼。機器學習的一種形式，稱為強化學習（RL），允許人工智能玩長期遊戲，提前幾步做出預測。這是DeepMind公司用來在圍棋和國際象棋遊戲中擊敗人類的方法。
如果我們看什麼會影響我們喜歡什麼，而喜歡某些東西（比如說貓咪視頻）的人更有可能繼續看東西（更多的貓咪視頻），那麼推薦系統可能會推薦貓咪視頻，因為它知道這將在未來得到回報。有了RL，你就有了改變棋盤的動力，以便獲勝。系統將有動力去改變人類的想法以贏得推薦遊戲。研究人員首先展示了強化學習如何輕鬆地轉變偏好。第一步是推薦者通過觀察人類行為建立一個人類偏好的模型。為此，他們訓練了一個神經網絡，一種受大腦架構啟發的算法。為了研究的目的，他們讓網絡建立了一個單一的模擬用戶模型，他們知道這個用戶的實際偏好，這樣他們就可以更容易地判斷模型的準確性。

它看着這個假人做出10個連續的選擇，每個都是10個選項。它觀察了這個序列的1000個版本，並從每個版本中學習。經過訓練，它可以成功地預測用戶在過去的一系列選擇中會選擇什麼。接下來，他們測試了一個推薦系統，在對用戶進行建模后，是否能改變用戶的偏好。在他們的簡化方案中，偏好位於一個一維的光譜上。這個光譜可以代表政治傾向或狗與貓或其他任何東西。在研究中，一個人的偏好並不是該線上的一個簡單的點，相反，它是一種分佈，表明在光譜的不同區域選擇事物的可能性。研究人員在光譜上指定了兩個最適合推薦者的位置；也許喜歡點擊這些類型的東西的人將學會更喜歡它們並繼續點擊。

推薦器的目標是使長期參與度最大化。在這裡，對於一個給定的選項的參與度，大致是通過它與用戶當時的偏好分佈的吻合程度來衡量的。長期參與度是10個連續選項的參與度之和。一個有遠見的推薦者不會近視地將每個選項的參與度最大化，而是將長期參與度最大化。作為一個潛在的副作用，它可能會犧牲一些早期板塊的參與度，以促使用戶在後面幾輪中更加滿意。用戶和算法將相互學習。研究人員訓練了一個神經網絡，以使長期參與度最大化。在10個板塊的序列結束時，當它表現良好時，他們加強了它的一些可調整參數。他們發現，這個基於RL的系統確實比其它訓練的系統產生了更多的參與。

科學家擔心人工智能只會把我們帶到了它想帶去的地方

相关推荐