清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

2021-11-10 15:19 • 熱點資訊

“只見4號球員在隊友的配合下迅速攻破後防，單刀直入，一腳射門，球，進了！”觀眾朋友們大家好，您現在看到的是GoogleAI足球比賽的現場，場上身着黃色球衣的是來自清華大學的AI球員。這屆清華AI可不一般，他們在艱苦訓練之下，不僅有個人能力突出的明星球員，也有世界上最強最緊密的團隊合作。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

在多項國際比賽中所向披靡，奪得冠軍。

“Oh，現在7號接過隊友傳來的助攻，臨門一腳，球又進了！”

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

言歸正傳，以上其實是清華大學在足球遊戲中打造的一個強大的多智能體強化學習AI——TiKick。

在多項國際賽事中奪得冠軍則是指，TiKick在單智能體控制和多智能體控制上均取得了SOTA性能，並且還是首次實現同時操控十個球員完成整個足球遊戲。

這支強大的AI團隊是如何訓練出來的呢？

從單智能體策略中進化出的多智能體足球AI

在此之前，先簡單了解一下訓練所用的強化學習環境，也就是這個足球遊戲：Google Research Football（GRF）。

它由Google於2019年發布，提供基於物理的3D足球模擬，支持所有主要的比賽規則，由智能體操控其中的一名或多名足球運動員與另一方內置AI對戰。

在由三千步組成的上下半場比賽中，智能體需要不斷決策出移動、傳球、射門、盤球、鏟球、衝刺等19個動作完成進球。

在這樣的足球遊戲環境中進行強化學習難度有二：

一是因為多智能體環境，也就是一共10名球員（不含守門員）可供操作，算法需要在如此巨大的動作空間中搜索出合適的動作組合；

二是大家都知道足球比賽中一場進球數極少，算法因此很難頻繁獲得來自環境的獎勵，訓練難度也就大幅增大。

而清華大學此次的目標是控制多名球員完成比賽。

他們先從Kaggle在2020年舉辦的GRF世界錦標賽中，觀摩了最終奪得冠軍的WeKick團隊數萬場的自我對弈數據，使用離線強化學習方法從中學習。

這場錦標賽只需控制場中的一名球員進行對戰。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

如何從單智能體數據集學習出多智能體策略呢？

直接學習WeKick中的單智能體操作並複製到每個球員身上顯然不可取，因為這樣大家都只會自顧自地去搶球往球門沖，根本就不會有團隊配合。

又沒有后場非活躍球員動作的數據，那怎麼辦？

他們在動作集內添加了第二十個動作：build-in，並賦予所有非活躍球員此標籤(比賽中若選用build-in作為球員的動作，球員會根據內置規則採取行動)。

接着採用多智能體行為克隆(MABC)算法訓練模型。

對於離線強化學習來說，最核心的思想是找出數據中質量較高的動作，並加強對這些動作的學習。

所以需在計算目標函數時賦予每個標籤不同的權重，防止球員傾向於只採用某個動作作為行動。

這裡的權重分配有兩點考慮：

一是從數據集中挑選出進球數較多的比賽、只利用這些高質量的數據來訓練，由於獎勵較為密集，模型能夠加速收斂並提高性能。

二是訓練出Critic網絡給所有動作打分，並利用其結果計算出優勢函數，然後給予優勢函數值大的動作較高的權重，反之給予較低的權重。

此處為了避免梯度爆炸與消失，對優勢函數做出了適當的裁剪。

最終的分佈式訓練架構由一個Learner與多個Worker構成。

其中Learner負責學習並更新策略，而Worker負責搜集數據，它們通過gRPC進行數據、網絡參數的交換與共享。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

Worker可以利用多進程的方式同時與多個遊戲環境進行交互，或是通過I/O同步讀取離線數據。

這種并行化的執行方式，也就大幅提升了數據搜集的速度，從而提升訓練速度 （5小時就能達到別的分佈式訓練算法兩天才能達到的同等性能）。

另外，通過模塊化設計，該框架還能在不修改任何代碼的情況下，一鍵切換單節點調試模式和多節點分佈式訓練模式，大大降低算法實現和訓練的難度。

94.4%的獲勝率和場均3分的凈勝分

在多智能體（GRF）遊戲上的不同算法比較結果中，TiKick的最終算法（+AW）以最高的獲勝率（94.4%）和最大的目標差異達到了最佳性能。

TrueSkill（機器學習中競技類遊戲的排名系統）得分也是第一。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

TiKick與內置AI的對戰分別達到了94.4%的勝率和場均3分的凈勝分。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

將TiKick與GRF學術場景中的基線算法進行橫向比較后發現，TiKick在所有場景下都達到了最佳性能和最低的樣本複雜度，且差距明顯。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

與其中的基線MAPPO相比還發現，在五個場景當中的四個場景都只需100萬步就能達到最高分數。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

作者介紹

一作黃世宇，清華大學博士生，研究方向為計算機視覺、強化學習和深度學習的交叉領域。曾在華為諾亞方舟實驗室、騰訊AI、卡內基梅隆大學和商湯工作。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

共同一作也是來自清華大學的陳文澤。

此外，作者還包括來自國防科技大學的Longfei Zhang、騰訊AI實驗室的Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清華大學的Chen Ting。

通訊作者為清華大學的朱軍教授。

清華打造足球AI：首次實現同時控制10名球員完成比賽勝率94.4%

論文地址：

https://arxiv.org/abs/2110.04507

項目地址：

https://github.com/TARTRL/TiKick

參考鏈接：

https://zhuanlan.zhihu.com/p/421572915

ai 球員足球

赞 (0)

金泰克首發DDR5筆記本內存：可超頻到5600MHz

上一篇 2021-11-10 15:19

庫克承認個人持有加密貨幣，但蘋果短期內不接受加密貨幣支付

下一篇 2021-11-10 15:28

熱點資訊

韋伯太空望遠鏡拍下蜘蛛星雲新圖像還捕捉到愛因斯坦環圖像

9月7日消息，最近詹姆斯·韋伯太空望遠鏡拍攝到蜘蛛星雲（Doradus 30）的壯麗圖像。韋伯太空望遠鏡的高分辨率紅外儀器組合在一起，揭示出其中人類未能觀測到的數千顆年輕恆星。韋伯…

2022-09-07
熱點資訊

Google將在布魯克林的Williamsburg開設第二家實體店

在Google的I/O開發者大會上，這家公司宣布它將在布魯克林的Williamsburg開設其第二家實體店。該公司表示，新店是它開設的第一家“社區商店”，它將為購物者提供類似於去年…

2022-05-12
熱點資訊

新的成像方法揭示細胞核中DNA的驚人排列方式

據外媒報道，如果你打開一本生物學教科書，瀏覽描述DNA在細胞核中如何組織的圖像，你有可能會開始感到飢餓；DNA鏈看起來就像一碗拉麵：漂浮在液體中的長串。然而，根據兩項新的研究（一項…

2021-09-08
熱點資訊

SEC主席對區塊鏈上的虛擬股票發出警告加密貨幣需要更多監管

美國證券交易委員會主席Gary Gensler對區塊鏈上出現的合成股票發出警告：向美國投資者出售代幣的公司可能最終會遇到監管機構的麻煩。Gensler在周三的演講中明確表示，映射亞…

2021-07-22
熱點資訊

最新科學突破為開發狗過敏疫苗奠定了基礎

科學家們已經確定了一系列狗過敏原中引起人們免疫反應的那些分子候選者，這是開發針對大多數狗過敏原因疫苗的第一步。已經有許多研究工作描述了狗過敏的性質和進展，但很少有應用研究利用這些信…

2021-12-24
熱點資訊

喜馬拉雅現罕見精靈閃電：如同一隻紅色大水母

19日凌晨，西藏蘇日瑪附近，中國攝影師捕捉到了罕見的紅色精靈閃電。據了解，“精靈閃電”形成於大氣中間層，是在距離地面30到80公里的大氣層中存在向上噴流現象。有環狀、噴射直流狀、也…

2022-06-20
熱點資訊

每場平均1.8人，近60%影院關門電影院還能挺過疫情嗎？

“靴子落了地，濟南影院即日起關門。”3月30日，董文欣在朋友圈轉發了一張紅頭文件，語氣平靜地說道。當天，濟南通報4例新冠陽性病例。兩天前，她還慶幸地對《中國新聞周刊》說，濟南的影院…

2022-04-08
熱點資訊

北京野生動物園一遊客擅自下車沖向虎群：盤坐與7隻白虎對視

據當地媒體報道，10月23日，在北京野生動物園自駕遊覽區，一名遊客突然下車，沖向了虎群。這一幕被後方的遊客拍了下來，發布到社交平台後引發熱議。目擊的遊客稱，昨天下午，在北京野生動物…

2021-10-24
熱點資訊

印度航空考慮訂購300架客機為史上最大飛機訂單之一

據知情人士透露，印度航空正考慮訂購至多300架窄體客機，這可能是商業航空史上規模最大的訂單之一。上述知情人士稱，印度航空可能訂購空客SE的A320neo系列客機或波音的737 Ma…

2022-06-20
熱點資訊

1.5T徹底成為歷史新一代奔馳E級路試諜照曝光：2023年發布

近日，有海外媒體曝光了一組新一代梅賽德斯-奔馳E級的路試諜照，作為奔馳三大主力轎車中最後一個換代的車型，新車將於2023年正式發布。從曝光的照片來看，新車將配備更大尺寸的進氣格柵，…

2021-12-02