大型語言模型(LLMs)正在以顯著的方式變革機器人系統的訓練,這一點在Nvidia、賓夕法尼亞大學和德州大學奧斯汀分校的最新研究中得到了強調。該研究介紹了DrEureka,這是一種開創性的技術,能自動生成機器人系統的獎勵函數和隨機化分佈。DrEureka代表了領域隨機化創新(Domain Randomization Eureka),僅需高級任務描述,便能在將學習到的策略從模擬轉移到現實應用中超越傳統人類設計的獎勵。
模擬到現實轉移
在機器人領域,策略通常在模擬環境中進行訓練,然後再應用於現實世界。然而,將這些學習到的政策轉移,常被稱為“模擬到現實的差距”,需要在模擬和實際條件之間進行廣泛的微調。最近的進展表明,LLMs可以利用其豐富的知識和推理能力,加上虛擬模擬器的物理引擎,來學習複雜的運動技能。LLMs可以生成獎勵函數——指導強化學習(RL)系統的關鍵組件,從而確定完成任務所需的最佳行動序列。然而,將學習到的政策應用於現實世界,通常需要大量的獎勵函數和模擬參數調整。
DrEureka的解決方案
DrEureka旨在通過自動設計獎勵函數和領域隨機化(DR)參數來簡化模擬到現實的轉移過程。DrEureka基於2023年10月推出的Eureka技術,利用LLMs根據任務描述生成獎勵函數的軟體實現。這些獎勵函數在模擬中進行測試,結果將引導調整,允許同時優化多個獎勵函數。雖然Eureka促進了在模擬環境中訓練RL策略,但未能解決現實場景的複雜性,並且在模擬轉移到現實中時需要手動干預。DrEureka通過自動配置DR參數來增強此過程。DR技術在模擬中引入變異性,使RL策略能夠適應現實世界中的不確定性。選擇合適的參數需要常識物理推理,這對LLMs來說是一個理想的挑戰。
DrEureka的實施
DrEureka採用多步驟的方法,同時優化獎勵函數和領域隨機化。最初,LLM根據安全指令和任務描述生成獎勵函數。模型利用這些指令開發初始獎勵函數,學習出與原Eureka方法相似的策略。隨後,進行測試以確定最佳物理參數,例如摩擦和重力,這指導了領域隨機化配置的選擇。政策隨後根據這些配置進行重新訓練,增強其對現實世界噪聲的魯棒性。研究人員將DrEureka描述為“一個以語言模型驅動的模擬到現實轉移管道,並能最小化人類干預。”
性能結果
研究團隊在四足機器人和靈巧機器人平台上評估了DrEureka。結果顯示,使用DrEureka訓練的四足行走政策在前進速度上超過了傳統人工設計系統34%,在不同地形上行駛距離上提高了20%。在靈巧操控測試中,DrEureka開發的最佳政策在固定時間內實現了300%的方塊旋轉數,遠超人類製作的政策。其中一個值得注意的應用案例是,一隻機器狗在瑜伽球上保持平衡並行走。LLM成功製作的獎勵函數和DR配置使其在現實中無需進行額外調整,即可在各種室內外表面上有效表現,且安全支援需求最低。
研究還發現,在任務描述中納入安全指令顯著影響了LLM生成指令的邏輯一致性,促進了現實轉移。“我們相信,DrEureka展示了通過自動化低層次技能獲取的複雜設計元件來加速機器人學習研究的潛力,”研究人員總結道。