2000億次開放學習后 DeepMind的智能體成精了

2021-08-05 16:13 • 熱點資訊

有這樣一批智能體，在完全沒有見過的遊戲任務里，也學會了遊刃有餘地解決目標。譬如面對下面這樣一個高地，它們要取到上面的紫色金字塔。沒有跳躍功能的它們，看似開始“焦躁”地亂扔起東西來，實則其中一塊板子正好被“扔”成了樓梯，這不就巧了，目標完成！

你可能會說這只是“瞎貓撞死耗子”罷了，但多次實驗發現，該智能體可以復現該方法的！

而且它還會不止一種方法，“我不上去，你下來”——直接藉助板子把目標扒拉下來了！

這也行？

而這些成精了的智能體來自DeepMind。

現在，為了讓AI更加多才多藝、舉一反三，他們專門給智能體打造了一個包含了數十億遊戲任務的“元宇宙”XLand：讓智能體在不斷擴展、升級的開放世界中通過上億次的訓練練就了不俗的泛化能力。

最終效果就像前面看到的，無需在新遊戲中從頭訓練，它們就能自主解決任務！

DeepMind也因此發表了一篇論文，就叫做：《從開放學習走出來的通用智能體》。

如何做到的呢？

“元宇宙”XLand

最功不可沒之一的就是這個龐大的“元宇宙”模擬空間。

這是一個“遊戲星系”，裡面有無數個“遊戲星球”，每個星球上的遊戲按競爭性、平衡性、可選項、探索難度四個維度進行區分。

比如圖左上介紹的“搶方塊”遊戲：藍色智能體需要把黃色的立方體放到白色區域，紅色智能體需要把同一個立方體放在藍色區域。

啊想想就頭大，所以這個遊戲的競爭性值都拉滿了，而由於雙方的條件/目標都一樣，所以平衡性值也很高，因為需要定位目標區域，所以探索難度並不小。

再比如圖右上的“將球體和立方體配對”：藍色/紅色智能體要將幾何體按顏色歸類到一起，完成任意一組配對就行。這個遊戲的可選性值就拉滿了，但競爭性就沒那麼強。

ps.藍色遊戲代表是完全競爭性的，粉色為完全合作性的。

不管是哪種遊戲任務，這批智能體都從最簡單的開始（比如僅“靠近紫色立方體”這種），一步步解鎖複雜度升級的遊戲（比如和另一個智能體“捉迷藏”），其中每一項遊戲都有獎勵，智能體們的目標就是將拿到的獎勵最大化。

而智能體“玩家”們是通過閱讀收到的目標的文字描述、觀察RGB圖像來感知周圍環境來完成任務。

生成的新任務要基於舊任務，且難度要剛剛好

除了上面這個開放式的學習環境，訓練方法也很重要。

研究人員使用的神經網絡訓練架構提供了一種針對智能體內部循環狀態的注意力機制——通過估計所玩遊戲的子目標，來持續引導智能體的注意力。

這種策略讓智能體學習到更具普遍能力的策略。

還有一個問題：如此廣闊的遊戲環境，什麼樣的遊戲任務分佈能產出最善於泛化的智能體呢？

研究人員通過持續調整每個智能體的遊戲分佈發現，每個新任務都要基於通關的舊任務生成，不能太難，也不能太容易。

這個也基本符合一般認知。

它們先經歷了四次迭代：

每個任務由多個智能體參與競爭，在舊任務上適應得好的智能體，會帶着權重、瞬時任務分佈、超參數等參與到新一輪任務中繼續學習。此時也會加入新的智能體讓競爭“活”起來。

智能體表現出明顯的零樣本學習能力

最後生成的第五代智能體，在XLand 4000多個“星球”里玩了大約70萬個遊戲，每一個智能體都經歷了2000億次訓練，完成了340萬個獨特任務。

到了這個時候，這些智能體已經能夠順利完成每一項評估任務（除了少數即使是人類也不可能完成的）。

整個實驗也最終表明，通過開發像XLand這樣的環境和這樣開放式地訓練方法，一些基於RL的智能體已表現出明顯的零樣本學習能力（0-shot）。

比如使用工具、打攔（ridge-fencing）、“捉迷藏”、找立方體、數數、合作或競爭等。

研究人員也觀察到智能體們面對新任務時不知道“什麼是最好的解決辦法”，但它們會不斷地試驗直到達到目標。

這個過程中出現的有趣的”緊急啟髮式行為”，除了開頭提到的搭梯子，還有這個臨時更換更簡易目標的例子——

在一個遊戲中該智能體需要從3個目標中任選一個完成：

1、將黑色金字塔放到黃色球體旁邊；2、將紫色球體放到黃色金字塔旁邊；3、將黑色金字塔放到橙色區域。

它一開始找到了一個黑色金字塔，想去完成目標3，但在搬運過程中看到了黃色球體，於是它就在1秒內改變了主意，選擇直接將金字塔放在黃色球體旁邊完成目標1。

（整個過程一共耗時6秒）

最後，看完了DeepMind的研究，再拋給大家一個問題：我們離真正的通用人工智能還有多遠？

圖片

（ps.你發現了嗎，文章最開頭高台取金字塔任務中的小紅智障體就不行，一直打轉，面對小藍搭好的梯子甚至直接毀掉

億次智能目標

赞 (0)

掃碼騎單車卻扣費買了悟空保市民反映不知情“被投保”

上一篇 2021-08-05 16:13

道奇2022年推出首款插混車型 Jeep首款純電車型2023年推出

下一篇 2021-08-05 16:14

熱點資訊

高通要徹底革掉SIM卡的命？恐怕運營商不答應

如果 iSIM 技術能夠應用於智能手機，SIM 卡的退場還會遠嗎？近日，高通公司宣布已與沃達豐公司和泰雷茲達成合作，將 SIM卡的功能合併到設備的主處理器中，並演示了採用 iSIM…

2022-01-26
熱點資訊

LOUIS VUITTON路易威登推出雙USB-C快充套裝

“LV”全名LOUISVUITTON路易威，以創意和精湛工藝成為全球奢侈品牌領導者，旗下最常見的產品有箱包、服裝、鐘錶和珠寶，近年來LV還進駐了消費電子市場，推出了智能腕錶、無線耳…

2022-03-29
熱點資訊

Google上線開放源碼項目GUAC 旨在促進供應鏈安全

軟件供應鏈安全是目前很多議程中的重中之重，自從Log4j漏洞被發現和美國關於網絡安全的行政命令下達以來更是如此。Google正在為一個新的開源項目尋求貢獻者，該項目名為GUAC（理…

2022-10-21
熱點資訊

埃及法院推遲審理蘇伊士集裝箱船賠償案

法律消息人士稱，埃及法院周六推遲了蘇伊士運河對3月份阻塞運河6天的集裝箱船船東提起的賠償案的聽證會，讓雙方有更多時間進行談判。3月23日，世界上最大的集裝箱船之一“給予號”（Eve…

2021-05-30
熱點資訊

意大利監管機構稱蘋果iCloud一些條款不合理並且可能非法

意大利反壟斷機構已經結束了對蘋果、谷歌等公司的調查，並得出結論，蘋果iCloud一些條款是不合法的。在開始調查蘋果、谷歌和Dropbox的雲服務一年後，意大利的競爭和市場保障局（A…

2021-09-29
熱點資訊

非洲風景如畫的基伍湖隱藏着可怕的秘密：充斥大量甲烷和二氧化碳

盧旺達的一個幾乎風景如畫的湖泊——基伍湖（Lake Kivu）實際上是大量甲烷和二氧化碳的聚集地。這個“殺人湖”位於非洲的盧旺達和剛果民主共和國的邊界上。該湖位於艾伯丁大裂谷上，是…

2022-02-16
熱點資訊

鼎橋手機真是華為“親兒子”？我們扒了扒背後水很深

今天有一款手機正悄咪咪地開售。是的，它就是被大家戲稱為 “ 華為親兒子 ” 的鼎橋 TD Tech M40。前兩天按着慣例打開網站刷點信息的時候，看到有一條資訊直接蹦了出來：“ 鼎…

2022-05-14
熱點資訊

Intel NUC筆記本上自家顯卡：性能斷崖式倒退

年初的CES大會上，Intel在宣布Arc銳炫顯卡新進展的時候，披露了即將搭載的設備，包括自家NUC，不但有迷你機，還有筆記本。是的，IntelNUC家族也有筆記本，它就是NUCX…

2022-07-08
熱點資訊

火遍全網的MBTI測試不是偽科學，但認真你就輸了

任何測試都是有局限性的。MBTI測試可以幫我們更好地了解人的性格特徵，但不能僅以單一的測試結果，就推斷一個人的心理特徵。要想真正考察一個人，必須用多種方法、從多個角度來考察，再用心…

2022-04-14
熱點資訊

240W USB Type-C數據線認證開放：極端電壓超過50V

2021年5月，USB協會頒布了2.1版本的USB Type-C數據線、充電器標準，其中最重要的更新是將支持的最高電壓從20V大幅提升至48V，同時電流5A，最高功率因此達到240…

2021-12-17