MIT開發新技術以解決機器人製作披薩麵糰的棘手挑戰

麻省理工學院（MIT）研究人員開發的一種新技術可以使機器人操縱像披薩麵糰這樣柔軟的物體或像衣服這樣柔軟的材料。一個披薩餅製作者處理麵糰是非常簡單的。然而，對於機器人來說，處理像麵糰這樣的可變形物體是很棘手的，因為麵糰的形狀可以以多種方式改變，這很難用方程式來表示。此外，從麵糰中創造一個新的形狀需要多個步驟和使用不同的工具。

對於一個機器人來說，學習一個具有長序列步驟的操作任務是特別困難的–那裡有許多可能的選擇–因為學習常常是通過試驗和錯誤進行的。

麻省理工學院、卡內基梅隆大學和加州大學聖迭戈分校的研究人員想出了一個更好的辦法。他們創建了一個機器人操縱系統的框架，該系統使用兩階段的學習過程，這可以使機器人在很長的時間範圍內執行複雜的麵糰操縱任務。一個“教師”算法解決了機器人為完成任務必須採取的每一個步驟。然後，它訓練一個 “學生”機器學習模型，學習關於何時和如何執行任務中所需要的每項技能的抽象概念，如使用擀麵杖。有了這些知識，系統就會推理出如何執行這些技能來完成整個任務。

研究人員表明，這種稱為DiffSkill的方法可以在模擬中執行複雜的操作任務，如分割和攤開麵糰，或從砧板周圍收集麵糰碎片，同時優於其他機器學習方法。

除了製作披薩餅之外，這種方法還可以應用於機器人需要操縱可變形物體的其他場合，例如為老人或有運動障礙的人餵食、洗澡或穿衣的護理機器人。

“這種方法更接近於我們人類計劃行動的方式。當人類做一個長距離的任務時，我們不是在寫下所有的細節。我們有一個更高層次的計劃器，它大致上告訴我們階段是什麼，以及沿途我們需要實現的一些中間目標，然後我們執行它們，”MIT計算機科學和人工智能實驗室（CSAIL）的研究生李雲珠說，她是介紹DiffSkill的論文的主要作者之一。

DiffSkill框架中的“老師”是一種軌跡優化算法，可以解決短距離的任務，即物體的初始狀態和目標位置很接近。軌跡優化器在一個模擬現實世界物理學的模擬器中工作（被稱為可微分物理學模擬器，這使”DiffSkill”中的”Diff”成為現實）。“教師”算法使用模擬器中的信息來學習麵糰在每個階段必須如何移動，一次一個，然後輸出這些軌跡。

然後“學生 ”神經網絡學習模仿“老師”的動作。作為輸入，它使用兩個攝像頭拍攝的圖像，一個顯示麵糰的當前狀態，另一個顯示任務結束時的麵糰。該神經網絡生成一個高級計劃，以確定如何將不同的技能聯繫起來以達到目標。然後，它為每個技能生成具體的、短距離的軌跡，並直接向工具發送指令。

研究人員使用這種技術對三種不同的模擬麵糰操作任務進行了實驗。在一項任務中，機器人使用鏟子將麵糰舉到砧板上，然後使用擀麵杖將其壓平。在另一項任務中，機器人使用抓手從櫃檯的各個角落收集麵糰，將其放在鏟子上，並將其轉移到砧板上。在第三個任務中，機器人用刀將一堆麵糰切成兩半，然後用抓手將每塊麵糰運送到不同的地方。

DiffSkill能夠勝過依靠強化學習的流行技術，即機器人通過試驗和錯誤學習任務。事實上，DiffSkill是唯一能夠成功完成所有三項麵糰操作任務的方法。有趣的是，研究人員發現，“學生”神經網絡甚至能夠勝過“教師”算法。

“我們的框架為機器人獲得新技能提供了一種新穎的方式。這些技能然後可以被串聯起來，以解決更複雜的任務，這超出了以前機器人系統的能力，”研究人員說。

因為他們的方法專註於控制工具（鏟子、刀、擀麵杖等），它可以應用於不同的機器人，但前提是它們使用研究人員定義的特定工具。在未來，他們計劃將工具的形狀整合到“學生”網絡的推理中，這樣它就可以應用於其他設備。

研究人員打算通過使用3D數據作為輸入來提高DiffSkill的性能，而不是使用難以從模擬轉移到現實世界的圖像。他們還希望使神經網絡規劃過程更加有效，並收集更多不同的訓練數據，以增強DiffSkill對新情況的概括能力。從長遠來看，他們希望將DiffSkill應用於更多不同的任務，包括布料操作等。