新出生的機器狗，打滾1小時后自己掌握走路，吳恩達開山大弟子最新成果

2022-06-30 15:15 • 熱點資訊

現在，讓機械狗自己打滾一個小時，它就能學會走路了！步態看着相當有模有樣，還能扛住大棍子的一通狂懟，就算是摔了個四仰八叉，翻個身自己又站起來了。

文/明敏

如此看來，訓機械狗和普通訓狗真是要沒什麼兩樣了啊。

這就是UC伯克利大學帶來的最新成果，讓機器人直接在實際環境中訓練學習，不再依賴於模擬器。

應用這一方法，研究人員在短時間內訓練出了4個機器人。

比如開頭看到的1小時學會走路的機械狗；

還有2個機械臂，在8-10小時實戰抓取后，表現接近於人類水平；

以及一個擁有計算機視覺的小機器人，在自己摸索2小時后，能絲滑地滾動到指定位置。

該研究由Pieter Abbeel等人提出，Pieter Abbeel是吳恩達的第一位博士生，前不久他剛剛獲得2021 ACM 計算獎（ACM Prize in Computing）。

目前，該方法的所有軟件基礎架構已經開源。

一個叫做“空想家”的算法

本文方法的pipeline大致可分為4步：

第一步，是先把機器人放在真實環境里，收集數據。

第二步，把這些數據傳輸到Replay Buffer。這一步驟就是利用歷史數據進行訓練、“總結經驗”，高效利用收集到的樣本。

第三步，World Model會對已有經驗進行學習，然後“腦補”出策略。

第四步，再用演員評論家（Actor Critic）算法來提升策略梯度法的性能。

然後循環往複，將已經提煉出的辦法再使用到機器人身上，最後達到一種“自己摸索學習”的感覺。

具體來看，這裡的核心環節是World Model。

World Models是2018年由DAVID HA等人提出的一種快速無監督學習方式，獲得了NIPS 2018的Oral Presentation。

它的核心理念是認為人類是基於已有經驗，形成了一個心理世界模型，我們所做的決定和行動都是基於這個內部模型。

比如人類在打棒球時，做出反應的速度遠比視覺信息傳達到大腦中的快，那麼在這種情況下還能正確回球的原因，就是因為大腦已經做出了本能的預測。

此前，基於World Model這種“腦補”的學習方法，Google提出了Dreamer這種可擴展的強化學習方法。

這一次提出的方法是在此基礎上，叫做DayDreamer。

（貌似可以叫做空想家？

具體來看，World Model就是一個智能體模型。

它包括一個視覺感知組件，能將看到的圖像壓縮成一個低維的表徵向量作為模型輸入。

同時還有一個記憶組件，可以基於歷史信息，對未來的表徵向量做出預測。

最後，還包括一個決策組件，它能基於視覺感知組件、決策組件的表徵向量，決定採取怎樣的動作。

現在，我們回到本次UC伯克利學者提出的方法。

不難發現，其中World Model Learning部分的邏輯就是一個經驗積累的過程，Behavior Learning部分則是一個動作輸出的過程。

本篇論文方法的提出，主要解決了機器人訓練中兩方面的問題：

效率和準確率。

一般來說，訓練機器人的常規方法是強化學習，通過反覆實驗來調整機器人的運作。

不過這種方法往往需要非常大量的測試，才能達到很好的效果。

不僅效率低下，而且訓練需要付出的成本也不低。

後來，不少人提出在模擬器中對機器人進行訓練，可以很好增效降本。

但是本文作者認為，模擬器訓練方法在準確性方面的表現還是不夠好，只有真實的環境才能讓機器人達到最好的效果。

從結果來看，在訓練機器狗的過程中，只花10分鐘時間，機器狗就能適應自己的行為了。

和SAC方法對比來看，效果有明顯提升。

在機械臂訓練過程中，這一新方法還克服了視覺定位和稀疏獎勵的挑戰，幾小時內的訓練成果明顯優於其他方法。

研究團隊

值得一提的是，本次帶來新成果的研究團隊成員，也非常令人矚目。

其中，Pieter Abbeel是吳恩達的開山大弟子。

他現在是UC伯克利電氣工程和計算機科學教授，伯克利機器人學習實驗室主任，伯克利AI研究院共同主任，曾加入過OpenAI。

前不久，他還獲得了2021 ACM 計算獎（ACM Prize in Computing），以表彰其在機器人學習方面的貢獻。

與此同時，他還是AI機器人公司Covariant的聯合創始人。

另一位Ken Goldberg，也是AI領域的頂級專家。

他現在是UC伯克利工程教授，研究方向為強化學習、人機交互等。

2005年，他被評選為IEEE院士。

與此同時，Goldberg還是一位藝術家，是UC伯克利藝術、科技文化研討會的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還只是UC伯克利一位大四的學生。

One More Thing

在觀看機械狗訓練的視頻時，我們發現研究人員使用的Unitree機械狗，

這個品牌來自中國企業宇樹科技，之前登上過春晚的機器小牛，也來自它家。

而且，最近宇樹機器狗集體進行Go1測試的視頻曝光，還在國外火了一波。

論文地址：

https：//danijar.com/project/daydreamer/

參考鏈接：https：//worldmodels.github.io/

小時機器人機械

赞 (0)

任天堂總裁稱中國遊戲機市場不大將聯合騰訊推廣掌機

上一篇 2022-06-30 15:14

華為Mate 50 Pro鋼化膜曝光：非瀑布屏、劉海設計有戲

下一篇 2022-06-30 15:15

熱點資訊

TrendForce預測今年全球顯示器出貨量將達1.5億台

根據TrendForce最新調查，由於在家工作和遠程教育普及帶來的高需求，2020年顯示器的出貨量達到1.4億台，同比增長8.6%，這代表了大約10年來的最高增長。隨着需求持續到今…

2021-05-13
熱點資訊

據稱一款名叫iPad Pro mini的小尺寸高性能平板電腦即將到來

下一個小型iPad很可能會以新的方式出現，擁有新的尺寸和猛增的性能，這款新設備可能被稱為iPad Mini Pro，也可能被稱為iPad Promini，也可能只是繼續被稱為iPa…

2021-05-11
熱點資訊

微軟官網Xbox Series X/S國行抽籤購：中籤原價買限量360台

從微軟官方商城微信小程序獲悉，目前商城已開啟限時抽籤購XSX/S活動，玩家可前往微軟官方商城小程序點擊首頁“XSX/S抽籤限時購”即可參與。據悉，此次XSS共300台，XSX共60…

2022-04-24
熱點資訊

亞馬遜贏得Verizon交易：利用Kuiper衛星網絡提供互聯網服務

據報道，亞馬遜和美國電信運營商Verizon今日聯合宣布，Verizon將使用亞馬遜的“ProjectKuiper”衛星網絡為農村和偏遠地區提供寬帶互聯網服務。對此，亞馬遜CEO安…

2021-10-26
熱點資訊

馬來西亞6月1日起實施全國全面封鎖為期14天

馬來西亞總理府28日晚發表聲明稱，為更好防控疫情，從6月1日起全國將進入全面封鎖期，為期14天。聲明稱，從6月1日至14日，將全面封鎖馬來西亞全國社交與經濟領域，除國安會所列出的關…

2021-05-29
熱點資訊

SpaceX回應NASA對星鏈衛星碰撞擔憂：可靠性超99%

北京時間2月25日消息，美國太空探索技術公司(SpaceX)周二在其網站上發文，似乎旨在解決美國宇航局(NASA)的擔憂。NASA擔心，SpaceX頻繁發射“星鏈”衛星，可能會增加…

2022-02-25
熱點資訊

CDPR總裁談潛在收購：“我們計劃保持獨立”

過去幾年經常可以看過遊戲業界巨頭微軟、索尼、騰訊、Embracer Group等等收購大大小小遊戲開發工作室的消息，關於業內其他工作室是否也在尋求被潛在收購的問題依然存在。然而，有…

2021-11-27
熱點資訊

Lightning接口“末日”將至蘋果或每年損失百億

近日，歐盟啟動關於統一便攜性電子設備充電接口的立法投票，最終以602票同意、13票反對、8票棄權的壓倒性結果立法通過。法案規定，從2024年底開始，所有手機、平板電腦、數碼相機、便…

2022-10-14
熱點資訊

科學家發現使用納米粒子可以將抑製劑送達大腦觸發免疫系統

密歇根大學羅傑爾癌症中心的研究人員發現一種小分子可以阻斷腦瘤的一個關鍵途徑時，他們感到很樂觀。但仍有一個問題：如何通過血液將抑製劑送入大腦以到達腫瘤。通過與多個實驗室合作，這些科…

2022-05-26
熱點資訊

只因在借款人的通訊錄里沒借網貸的你被催收了嗎？

“吳XX，通過網貸平台申請1000元貸款多次提醒未處理，若在24小時內未處理，由律師事務所統一打包報備到戶籍地人民法院開庭處理，處罰滯納金共計約13650元一併由你本人全部承擔。”…

2021-09-27