歷史最高分騰訊絕悟AI斬獲Minecraft AI競賽冠軍

絕悟AI開始挑戰更複雜的開放世界遊戲環境了。Minecraft
(中文譯名《我的世界》) 是全球最暢銷的開放世界3D遊戲。隨機生成的開放地圖、自由靈活的玩法、多線程長鏈條任務，給AI研究帶來了極大挑戰。針對Minecraft的複雜環境，遊戲AI賽事MineRL邀請全球程序員在4天時間內用一台計算機訓練AI找到遊戲中的鑽石。

12月8日，第三屆MineRL競賽主賽道 (research track) 發布成績，AI 的“鑽石之夢”向前踏進了一大步：騰訊AI Lab“絕悟”以76.970分的絕對優勢奪冠。研究成果已發布在Arxiv上，算法框架可復用於其他複雜決策環境。

（論文鏈接：https://arxiv.org/abs/2112.04907）

MineRL競賽由卡內基·梅隆大學、微軟、DeepMind、OpenAI，聯合機器學習頂級會議NeurIPS共同舉辦，極富挑戰性的賽題持續吸引全球開發者關注。今年賽事共有59支團隊、近500名選手投身其中，其中不乏世界頂級學府和研究機構的科研強隊。競賽的研究主題是：訓練樣本高效的Minecraft AI智能體。

騰訊AI Lab創新性地通過分層強化學習（Hierarchical Reinforcement Learning）、表示學習（Representation Learning）、自模仿學習（Self-imitation Learning）、集成行為克隆（Ensemble Behavior Cloning）等算法高效實現比賽目標。

（絕悟AI以壓倒性優勢獲得歷史最高分，今年榜單詳見鏈接）

極度多樣的環境、完全靠隨機種子生成的地圖、長決策序列與複雜的技能學習、高自由度玩法帶來的海量策略偏好都增加了Minecraft AI研究的難度。比如，為了讓AI在15分鐘內找到鑽石，AI需要經歷徒手採集原木、合成木板、木棍與木鎬，採集到鐵礦，經過一系列加工才能合成鑽石。

此外，主辦方還制定了種種嚴苛的規則：包括禁止參賽者編寫規則、遊戲環境甚至將背包信息與動作空間加密、且不允許使用預訓練模型，只允許與環境最多交互八百萬次，每個參賽隊伍只能使用6核CPU與半張NVIDIA K80顯卡訓練4天——這個配置幾乎對於所有高校實驗室與個人研究者都可以負擔的。

這次比賽的目的在於促進樣本高效 (Sample-efficient) 遊戲AI算法的發展。目前流行的強化學習算法一般需要多達成百上千萬次的試錯來尋找最優流程，耗費大量的時間和計算資源。而純靠人類數據的模仿學習算法雖然更快，但性能上往往不盡如人意。

（Minecraft 遊戲截圖）

絕悟AI創新性地提出了一種樣本高效的基於分層強化學習（Hierarchical Reinforcement Learning）的解決方案。數據表明，騰訊AI Lab推出的上層控制器的預測準確率可以達到99.95%，也就是說，AI從人類數據中學到了一套幾乎不出錯的宏觀策略，每時每刻都清晰地知道自己下一步的正確動向。

在狀態空間表徵上，Minecraft遊戲遇到的最大挑戰在於如何理解複雜的開放地圖。首先被選中的是近年來熱門的表示學習方法 (Representation Learning)。但研究人員很快發現，已有方法只適用於2D場景，在MineCraft遊戲環境里效果很差。於是騰訊AI Lab設計了一種“基於動作感知”（Action-aware Representation Learning）的新穎算法，用來捕捉每個動作對環境產生的影響，形成注意力機制。實驗表明，該算法可以顯著提升智能體獲得資源的能力與效率。

（不同動作的可視化結果，AI學會了關注當前圖像中的關鍵區域）

隨着遊戲推進，智能體與人類的策略出現了很大的分歧。此時，人類數據已經很難用於指導AI。絕悟AI使用了自模仿學習 (Self-imitation Learning)的思想，提出了基於鑒別器的自模仿學習算法，AI可以從自身過往的成功與失敗中獲得經驗與教訓，並在察覺到當前狀況不妙的時候，主動往更好的方向修正。對比實驗證明，在加入自模仿策略后，智能體探索到的行為更加一致，也可以顯著降低進入危險區域的概率。

對於合成物品等需要長鏈條的動作序列的任務，研究人員也做了細緻的優化。通過動作序列一致性過濾 (Consistency Filtering) 與基於投票的集成學習(Ensemble Learning)，模型在合成物品階段的成功率從35%提升到96%，一舉將最薄弱的鏈條扭轉為了最穩定的制勝點。

利用高度複雜、高度定製化的遊戲場景作訓練場，騰訊 AI Lab 的深度強化學習智能體正不斷走近現實。棋牌遊戲 AI “絕藝”從圍棋棋盤逐步走向象棋、麻將，策略協作型 AI “絕悟”從MOBA走向FPS、RTS，再到如今的 3D開放世界 MineCraft。它們邁向全新挑戰的每一步，都讓AI離解決現實問題、科技向善的大目標更近了一步。

隨着虛實集成世界逐步變成現實，這些研究的經驗、方法與結論，將在真實世界創造更大的實用價值。