用世界模型訓練機器狗：1小時學會走路、翻身和通過障礙物

北京時間7月21日上午消息，據英國《每日郵報》報道，美國加州大學伯克利分校的研究人員近日公布了一款機器狗，可以在一小時內學會走路和翻身，甚至能通過特定的障礙物。在研究人員發布的一段視頻中，可以看到這隻機器狗一開始只能在地上掙扎，四條腿不斷在空中揮舞。

美國加州大學伯克利分校的研究人員近日公布了一款機器狗，可以在一小時內學會走路和翻身，甚至能通過特定的障礙物。

然而，僅僅10分鐘之後，它就可以走上幾步了；一個小時后，它的步伐就變得輕鬆很多，甚至在被一位研究人員用棍子推倒之後，還能自己翻身爬起來，繼續導航并行走到預定目標。

與許多機器人不同的是，研究人員並沒有事先在計算機模擬系統中向這個機器狗發布指令。丹尼爾·哈夫納（Danijar Hafner）是美國加州大學伯克利分校的人工智能研究者，他和同事們利用強化學習的方法，對這個機器狗進行了訓練。

研究人員使用了一種名為“Dreamer”的算法，利用過去的經驗建立了一個真實世界的模型，供機器人學習。上圖是機器人在30分鐘的樣子。

“通常情況下，機器人在計算機模擬系統中會通過大量的試錯來學習，這比實時學習要快得多。”哈夫納解釋道，“在模擬中解決站立和行走等任務后，學習到的行為才會在一個物理機器上運行。但模擬無法捕捉現實世界的複雜性，因此在模擬中表現良好的行為可能無法解決現實世界中的任務。”

一位與該研究無關的科學家表示，強化學習將成為未來機器人操控的基礎工具。上圖是40分鐘的機器人。

在這項研究中所用的機器學習類型，其實是通過獎勵機器在環境中採取某些行動的方式，對其算法進行訓練。哈夫納和他的合作者——菲利普·吳（Philipp Wu）和亞歷杭德羅·埃斯康特雷拉（Alejandro Escontrela）——使用了一種名為“Dreamer”的算法，可以根據過去的經驗來構建一個真實世界的模型，並允許機器人進行試錯運算。

“Dreamer算法最近展現出巨大的前景，它可以通過在一個學習世界模型中制定計劃，從少量的互動中學習。”研究人員在論文中寫道，“學習一個世界模型來預測潛在行動的結果，可以在想象中進行計劃，從而減少在現實環境中所需的試錯次數。”該論文於近期發表在預印本網站arxiv.org上，尚未經過同行評議。

1個小時后，圖中的這款機器狗已經能很好地導航、行走，還能自己翻身。

在機器狗學會走路后，它還可以學會適應其他不可預測的結果，比如被研究人員用棍子戳倒。強化學習已經使機器人在棋類和電子遊戲等方面大大超過了人類，但教會機器人在現實世界中做出正確的行動依然極具挑戰性。歸根結底，這是因為工程師們必須根據科學家是否希望這種行為得到獎勵來進行編程。

“將強化學習應用到實體機器人上是一個巨大的挑戰，因為我們無法加快現實世界中的時間，而機器人模擬器往往無法足夠準確地捕捉現實世界。”研究人員解釋道。

“我們的項目表明，學習世界模型可以大大加快機器人在物理世界中的學習速度。這將使強化學習更接近於解決複雜的自動化任務，比如製造和組裝任務，甚至是自動駕駛汽車。”

研究團隊在論文中列舉了這類技術所面臨的其他障礙，表示儘管Dreamer算法展示了很有前景的結果，但在硬件上進行長時間的學習會給機器人造成磨損，可能需要人類的干預或修復。上圖中，機器狗正在通過障礙物

萊雷爾·平托（Lerrel Pinto）是紐約大學的計算機科學助理教授，致力於研究機器人和機器學習，他補充道：“機器人學家需要為他們希望機器人解決的每一個任務（或）問題進行這樣的訓練。”這將意味着大量的代碼和一系列根本無法預測的情況。

研究團隊在論文中列舉了這類技術所面臨的其他障礙。“儘管Dreamer算法展示了很有前景的結果，但在硬件上進行長時間的學習會給機器人造成磨損，可能需要人類的干預或修復。”他們在研究摘要中寫道，“此外，通過更長時間的訓練，我們需要做更多的工作來探索Dreamer算法的極限和我們的基線。”

“最後，我們認為，將快速真實世界學習和模擬器的優勢潛在地結合在一起，以解決更具挑戰性的任務，將是一個影響深遠的未來研究方向，”研究人員補充道。

哈夫納希望未來能教會機器狗服從人類的口頭指令，或許還能在機器狗身上安裝攝像頭，讓它具有視覺能力。通過這些改進，研究人員希望這款機器狗最終能做到一些更典型的狗類行為，比如把丟出去的東西撿回來。

在另一項獨立進行的新研究中，德國馬克斯·普朗克智能系統研究所（MPI-IS）的研究人員開發了一款名為“Morti”的機器狗，它的腳上安裝有傳感器，可以通過一種包含傳感器數據的複雜算法輕鬆學習走路。

德國馬克斯·普朗克智能系統研究所的科學家們利用算法訓練了一款名為Morti的機器狗，使其學會走路

“作為工程師和機器人學家，我們希望製造一個具有動物一樣的反射能力，並能從錯誤中學習的機器人，從中尋找答案。” MPI-IS動態運動研究小組的前博士生菲利克斯·魯珀特（Felix Ruppert）在一份聲明中說，“對一隻動物而言，跌倒了能算是一個錯誤嗎？如果只發生一次的話就不算；但如果它經常跌倒，那就是錯誤了。這就讓我們能以某種方法來了解機器人行走的情況。”

機器狗Morti通過一種複雜的算法來指導自己進行學習。來自足部傳感器的信息與機器脊髓模型的數據相匹配，而脊髓模型可以在機器人的計算機中作為程序運行。機器狗通過不斷比較設定和預期的傳感器信息、運行反射迴路並調整其運動方式來學習走路。

波士頓動力公司的迷你機器狗SpotMini

在2017年11月發布的一段視頻中，美國波士頓動力公司首次展示了其開發的最先進的機器狗SpotMini。在此之前，該公司還發布了一款1.7米高的人形機器人，名為“Atlas”。此次發布的是機器狗Spot的“輕量級”新版本。

視頻中，這隻機器狗在院子里“撒歡似的”小跑。波士頓動力公司在其網站上寫道：“Spot是一款小型的四足機器狗，很適用於辦公室或家庭環境。”它的重量為25公斤，加上機械臂后的重量則為30公斤。

美國波士頓動力公司的機器狗SpotMini在草坪上“撒歡”小跑

該公司稱，Spot是一款全電動機器狗，充電后可以運行約90分鐘，具體時長取決於它在做什麼。此外，Spot也非常安靜，被波士頓動力公司稱為其“製造的最安靜的機器人”。Spot於2016年首次亮相，之前的一款迷你版Spot有一個可伸長的“脖子”，看起來十分怪異。不過，在該公司之前的一段視頻中，這款機器狗已經可以幫忙做家務了。

從這段視頻中可以看到，機器狗走出了波士頓動力公司總部，進入了一棟住宅。在那裡，機器狗利用可彎曲伸長的脖子將杯子放入了洗碗機，還把一個罐子扔進垃圾桶。有一次它踩到掉在地上的香蕉皮，摔了一跤，但利用可伸縮的脖子，它又重新站了起來。