華人博士用強化學習回收了SpaceX火箭

2021-11-16 15:34 • 熱點資訊

馬斯克旗下的SpaceX可以說帶火了“火箭回收”這一話題。這不，連粉絲們都已經開始摩拳擦掌，用自己的方式挑戰起了這個技術難題。例如一位來自密歇根大學的華人博士，就用強化學習試了一把回收火箭！

博雯發自凹非寺

他根據現實中的星艦10號一通進行模擬，還真在虛擬環境中穩穩地完成了懸停和着陸！

這個項目迅速在Reddit上引發了大批網友們的關註：

那麼，他是如何實現的呢？

給火箭回收設立“獎勵機制”

要在模擬環境中回收火箭，那麼大一隻構造複雜的火箭肯定是不能直接抱來用的。

於是，這位SpaceX的鐵杆粉絲首先基於氣缸動力學，將火箭簡化為一個二維平面上的剛體：

這個火箭的底部安裝有推力矢量發動機，能夠提供不同方向的可調的推力值（0.2g，1.0g和2.0g）；同時，火箭噴嘴上還增加了一個角速度約束，最大轉速為30°/秒。

火箭模型所受到的空氣阻力則設定為與速度成正比。

現在，這個模型的一些基本屬性就能夠以下面兩個集合來表示：

動作空間：發動機離散控制信號的集合，包括推力加速度和噴嘴角速度
狀態空間：由火箭位置、速度、角度、角速度、噴管角度和仿真時間組成的集合

而“火箭回收”這一流程，則被分為了懸停和着陸兩個任務。

在懸停任務中，火箭模型需要遵循這樣一種獎勵機制：

火箭與預定目標點的距離：距離越近，獎勵越大；
火箭體的角度：火箭應該儘可能保持豎直

着陸任務則基於星艦10號的基本參數，將火箭模型的初始速度設置為-50米/秒，方向設置為90°（水平方向），着陸燃燒高度設置為離地面500米。

△星艦10號發射和着陸的合成圖像

火箭模型在着陸時同樣需要遵循這樣一種“獎勵機制”：

當著陸速度小於安全閾值，並且角度接近豎直0°時，就會受到最大的“獎勵”，也會被認為是一次成功的着陸。

總體而言，這是一個基於策略的參與者-評判者的模型。

接下來就是進行訓練：

最終，在經歷了 20000次的訓練后，火箭模型在懸停和着陸兩個任務上都實現了較好的效果：

最終，模型得到了很好的收斂效果：

而這枚模擬環境中的偽·星艦10號，也就像開頭展示的那張動圖一樣，學會了腹部着陸，穩穩地落地了。

下一步：增加燃料變量

這一項目一經發出，就引來了紅迪眾多網友的圍觀和稱讚。

有人覺得用強化學習來解決傳統任務非常有趣，因為它具有更好的魯棒性。

作者也在下方回復表示：現實中惡劣的環境條件可以成為環境制約因素，而強化學習則能在一個統一的框架內解決這些問題。

不過在稱讚之餘，也有網友提出了最直接的這樣一個問題：

既然我們已經可以使用經典控制方法找到這些任務的最優解，那為啥SpaceX之前沒人做？

下方有人解答到：這或許是因為之前的數字控制系統、傳感器等技術並不成熟，採用新方法就意味着要重新設計火箭的關鍵部分。

這也就是控制系統層面之外的“工程類的問題”，而SpaceX正是在這些相關領域中做了改進。

而那些較為傳統保守的航天航空工業則會使用使用凸優化（Convexification）來解決火箭着陸問題。

也就是評論區有人貼出的這篇論文中提到的方法：

不少評論也為開發者提供了下一步開發的新思路，比如這條評論建議將“剩餘燃料”也作為一個變量，模型燃料的減少或耗盡也是現實中的一個重要影響因素。

作者欣然接受了這一建議：是很容易添加的有趣設置，安排！

密歇根大學華人博士

開發者已經為這一項目建立了一個網站，在主頁他這樣介紹到：

這是我的第一個強化學習項目，所以，我希望通過這些“低水平代碼”儘可能地從頭實現包括環境、火箭動力學和強化學習agent在內的所有內容。

作者叫Zhengxia Zou，是一位來自密歇根大學博士，主要研究計算機視覺、遙感、自動駕駛等領域。

他的論文曾被 ICCV 2021、CVPR 2021等多個頂會收錄：

下載鏈接：

https://github.com/jiupinjia/rocket-recycling

項目主頁：

https://jiupinjia.github.io/rocket-recycling/

參考鏈接：

[P][R] Rocket-recycling with Reinforcement Learning from MachineLearning

spacex 回收火箭

赞 (0)

新方法為阿爾茨海默症提供了潛在的疫苗和治療方法

上一篇 2021-11-16 15:32

蘋果向Apple Card客戶限時放寬購買自家產品的零利率分期優惠政策

下一篇 2021-11-16 15:34

熱點資訊

PlayStation x 歐冠聯賽宣傳片奎托斯亮相綠茵場

PlayStation是歐冠聯賽的贊助商，因此索尼近日發布了一段PlayStation聯動歐冠聯賽的宣傳視頻，視頻中索尼旗下的IP人物來到了歐冠賽場上一展風采。在球員中，當玩家意識…

2021-11-03
熱點資訊

[視頻]耗時2年大神DIY《星際迷航》中的三錄儀

以《星際迷航》中知名的三錄儀（Tricorder）醫療設備為靈感，油管頻道 Mangy_Dog 上傳了第二代 DIY 作品，可以說比好萊塢在劇中使用的任何道具都要精巧。該油管頻道將…

2022-01-20
熱點資訊

2022年前8月我國手機產量9.9億台同比下降4.5%

昨日，工信部發布了《2022年1—8月份電子信息製造業運行情況》，1—8月份，我國規模以上電子信息製造業增加值同比增長9.3%，增速分別超出工業、高技術製造業5.7和0.9個百分點…

2022-10-01
熱點資訊

“清華畢業應聘保姆”引熱議：照片系PS 涉事公司被查

近日，一則“清華畢業生”求職家政管家的消息引發熱議，簡歷照片被指涉嫌造假，一度引發廣泛關注。據國內媒體報道，6月15日，上海市松江區市場監督管理局表示，目前已對涉事家政公司以涉嫌虛…

2021-06-16
熱點資訊

埃茲拉·米勒否認《閃電俠》將抹掉扎克施奈德的創作

近日外網傳聞華納正在籌劃新的正義聯盟組合，《閃電俠》中登場的女超人將取代亨利·卡維爾的超人，再加上金絲雀、沙贊、蝙蝠女、邁克爾·基頓版蝙蝠俠等來組成。為此有網友詢問扮演閃電俠的埃…

2022-01-04
熱點資訊

儲存氫氣的“納米夾心巧克力”：未來的創新能源載體

一種創新的方法可以將納米顆粒變成儲存氫氣的簡單儲罐。這種極易揮發的氣體被認為是未來有前途的能源載體，它可以為飛機、船舶和貨車等提供氣候友好型燃料，並允許氣候友好型鋼鐵和水泥持續生產…

2021-12-29
熱點資訊

力捧助播上位，薇婭的故事還沒講完？

隨着“薇婭復出”的消息不脛而走，一個名為“蜜蜂驚喜社”的淘寶直播間勢如破竹成長起來，短短兩周時間，粉絲接近200萬，場均觀看人數達到600萬。“蜜蜂驚喜社”直播間的六位主播，有五位…

2022-03-02
熱點資訊

中國空間站即將建成楊利偉：好多國家都在申請合作

按照之前的計劃，2022年中國將正式建成天宮空間站，將完成問天實驗艙、夢天實驗艙、神舟載人飛船和天舟貨運飛船等6次重大任務，全面建成空間站，中青網報道稱，中國載人航天工程副總設計師…

2022-03-07
熱點資訊

Valve為20211120.2版Steam Deck系統鏡像帶來諸多更新改進

對於參加了 7 月 Steam Deck 掌機預定的人們來說，12 月份的消息有些苦樂參半。除了受芯片供應短缺影響而將出貨時間延期至 2022 年 2 月份，Valve 還有許多細…

2021-12-15
熱點資訊

搶佔產業制高點美智庫建言大力發展先進封裝產能

美國智庫“安全與新興技術中心”（CSET）近日發布報告，建言美國應大力加強先進封裝技術研究與產業化。報告指出，《芯片法案》有望扭轉90年代以來美國半導體製造能力的相對萎縮態勢，但與…

2022-06-20