UC伯克利等研發新型機器人運動算法實時快速適應變化環境

說到腿式機器人，機器之心以前介紹過不少，如能跑、能跳、能跳繩、跨越障礙的 Spot 機器狗，不用攝像頭和激光雷達憑感覺“越野”的 ANYmal
機器人、會翻跟斗的 MIT
機器人，等等。這些腿式機器人都有一定的適應外部環境的能力，但還不夠。腿式機器人在現實世界的成功部署需要其實時適應未見過和不斷變化的場景，如多樣化的地形、不同重量的負載以及不同程度的磨損。

近日，來自 UC 伯克利、CMU 和 FAIR 的研究者們在腿式機器人實時、智能適應具有挑戰性、陌生的地形和環境方面取得了重大突破，推出了一種快速運動適應（Rapid Motor Adaptation, RMA）算法。該算法包含兩個子策略，其一是使用強化學習訓練的基本策略（base policy）和使用監督學習訓練的適應模塊（adaptation module），二者完全在模擬中學習。在 RMA 算法加持下，四足機器人擁有了所有智能體共有的適應環境因素的能力。

論文地址：https://ashish-kmr.github.io/rma-legged-robots/rma-locomotion-final.pdf
項目主頁：https://ashish-kmr.github.io/rma-legged-robots/

以往的四足機器人要麼已經針對它們所要適應的環境進行了完全手動編碼，要麼通過手動編碼和學習技巧的結合來教它們在環境中導航。與這些不同，RMA 是首個完全基於學習的系統，通過探索並與世界進行交互，使腿式機器人能夠從頭開始適應環境。

具體來講，RMA 在不使用任何領域知識（如基準軌跡或預定義的足軌跡生成器）的情況下完全在模擬中訓練，並且無需任何微調即可以部署在 Unitree 的 A1 機器人上。

研究者在各種地形生成器上訓練 RMA，包括亂石灘、泥地、不平整草地、混凝土地、鵝卵石地、石階和沙灘等。結果表明，RMA 在不同的現實環境和模擬實驗中都實現了優於其他腿式機器人的性能。

優哉游哉穿過亂石灘：

走過高低不平的草地：

在潑了油的塑料板上也不打滑：

此外，RMA 中的適應模塊至關重要。測試表明，有適應模塊的四足機器人可以負載 8 千克的重量，無適應模塊的則負載不了這個重量。

無適應模塊的四足機器人也無法在海綿板上行走：

RMA 賦能的四足機器人不僅可以負載不同重量，而且必須能夠適應預期的磨損以及現實世界可能出現的其他不可預測的變化。得益於自身能力完全基於遭遇的環境，RMA 賦能的四足機器人還可以適應程序員未曾考慮到的情況。

對於這款能夠適應複雜多變環境的四足機器人，網友表示：“我滿腦子想到的都是電視劇《黑鏡》裡面的機器狗……”

機器人是如何做到的？

手動編碼的改進可以提高機器人在受控環境中的性能，但是想要機器人真正的適合現實世界中的變化，唯一的方法是教機器人真正的適應環境，類似於人類的學習方式。

想要賦予機器人適應不斷變化世界的能力，研究者需要通過數百萬次重複實驗來教他們，而做到這一點的最佳方法不是在現實世界中，在現實世界中機器人可能會在學習過程中損壞或磨損，研究者是在模擬環境中進行的。

RMA 全程使用端到端學習，甚至直接輸出關節位置，而不依賴預定義的腿部運動或其他控制原語。

然而，這些機器人在模擬環境中學習技能，當部署到現實環境中會出現很多挑戰。在模擬環境中，機器人的物理結構和模型往往在微小但重要的方面有所不同。例如，在發送控制信號和執行器移動之間可能有輕微的延遲，或者腳上的磨損使它比以前更滑，或者關節的角度可能偏差了百分之一度。

物理世界本身也呈現出一些複雜的情況，以自由空間中移動的剛體為模型的模擬器無法準確捕捉到這些複雜情況。床墊或泥坑等表面接觸後會變形。在模擬中相當標準化的環境在現實世界中變得更加多樣化和複雜，如果考慮到室內和室外空間中可能存在的大量地形，情況就更加複雜了。當然，現實世界中的因素從來都不是靜態的，所以腿式機器人能夠掌握的現實世界環境可能與大不相同。

在真實世界中進行模擬和部署訓練

RMA 通過使用兩個不同的子系統克服了這些挑戰：基本策略和適應模塊。

基本策略是在 RL 模擬中學習的，使用不同環境的信息（例如摩擦量以及有效載荷的重量和形狀）。研究者設置了不同的變量——模擬更滑或少滑的地面或斜坡的坡度——因此機器人可以學習在不同條件下的正確控制，研究者將關於這些變量的信息編碼為“extrinsics”。

環境參數範圍。

當然，不能僅僅用這個基本策略來部署機器人，因為我們不知道它在現實世界中會遇到什麼外部特性。因此，研究者依賴於機器人在周圍環境中自己學到的信息，即機器人最近的運動信息。我們知道關節的實際運動和來自命令的預期運動之間的差異依賴於這些外部特性。例如，突然的腿部障礙物會使機器人停止，但同時也會顯示其周圍地面高度的信息。同樣，在柔軟的表面上，機器人腿會隨着腳下沉而伸展得更遠，而在堅硬的表面上，機器人會快速的停止。

由於我們知道機器人在模擬中遇到的實際外部特性，我們可以使用監督學習訓練自適應模塊，從機器人最近的歷史狀態預測當前行為。

適應新條件，幾乎是瞬間完成

通過基本策略和適應模塊的這種組合，機器人可以在幾分之一秒內適應新的條件。

相比較而言，先前基於 RL 的方法訓練的機器人需要幾分鐘時間，有時還需要人工干預才能適應新條件，使得這些機器人在現實世界中不現實。

當部署支持 RMA 的機器人時，基本策略和適應模塊協同異步工作（基本策略以更快的速度運行，適應模塊以更慢的速度運行），以使機器人能夠在沒有任何微調的情況下執行魯棒和自適應的移動。異步運行兩種策略並以本質上不同的頻率運行還有助於使用小型機載計算部署 RMA。小的基本策略可以保持機器人以高頻行走，而較大的適應模塊可以以低頻發送外部向量。異步運行這兩個策略還為有些不可預測的硬件速度和時間增加了魯棒性。

實驗表明，RMA 支持的機器人成功地在幾個具有挑戰性的環境中行走，表現優於 non-RMA 部署的機器人，與 Unitree 機器人相媲美，甚至是優於 Unitree 機器人。研究者使用相同的策略執行所有現實世界的部署，而不需要任何模擬校準或現實世界的微調。

在所有的試驗中，這個機器人能夠在沙子上、泥土裡、徒步小徑上、高草叢和土堆上行走，沒有一次失敗。在 70% 的試驗中，這個機器人成功地沿着一條徒步路線走下台階。在 80% 的試驗中，它成功地通過了一堆水泥和一堆鵝卵石，儘管在訓練中從未見過這種不穩定或下沉的地面、阻塞的植被或台階。當它以 12 公斤的有效載荷（相當於其體重的 100%）移動時，它也能以很高的成功率保持高度。

RMA 是機器人技術一項激動人心的進步，它可以在現實世界中部署新型、高效且適應性強的步行機器人。這項工作還表明，人工智能的進步可以改變機器人領域，增強機器人的能力，同時使這些改進更易於擴展到新的條件和應用。純粹依靠學習的方法有可能在更便宜、不準確的硬件環境下工作，這將大大降低未來機器人的成本。效率的提高和成本的降低可能意味着 RMA 支持的機器人將來可以發揮多種作用，比如在搜索和救援行動中充當助手，特別是在那些對人類來說太危險或不切實際的地區。

除了機器人技術之外，RMA 還指出了構建 AI 系統的方法，該系統可以通過利用動態數據來了解特定算法運行的上下文，從而實時適應許多困難的挑戰。