大型语言模型(LLM)正在以显著的方式改变机器人系统的训练,近期由英伟达、宾夕法尼亚大学和德克萨斯大学奥斯汀分校的研究凸显了这一点。该研究推出了DrEureka,这是一种开创性的技术,旨在自动化机器人的奖励函数和随机化分布的创建。
DrEureka简介
DrEureka(领域随机化Eureka)只需要高层次的任务描述,就能在将学习到的策略从模拟应用于真实场景时,超越传统人为设计的奖励函数。
从模拟到真实的转移
在机器人领域,策略通常在模拟环境中训练,然后再部署到现实世界。然而,将学习到的策略转移到现实应用中存在“模拟到现实差距”的挑战,往往需要在模拟条件与实际条件之间进行大量调试。最新研究表明,LLM结合虚拟仿真引擎的物理特性,可以学习复杂的运动技能,并生成引导强化学习(RL)系统的奖励函数,帮助识别完成任务所需的最佳行动序列。
然而,通常将学习到的策略转移到现实应用中需要耗费大量的人力来调整奖励函数和模拟参数。
DrEureka的解决方案
DrEureka通过自动化奖励函数和领域随机化(DR)参数的设计,旨在简化从模拟到真实的转移过程。基于2023年10月推出的Eureka技术,DrEureka利用LLM根据任务描述生成奖励函数的软件实现。这些奖励函数在模拟环境中进行测试,结果用于修改奖励函数,从而实现多种奖励函数的同时优化。
虽然Eureka有助于在模拟环境中训练RL策略,但其并未解决现实场景的复杂性,并且在模拟到现实的转移中仍需人工干预。DrEureka通过自动配置DR参数来增强这一过程。DR技术为模拟引入了多样性,使RL策略能够适应现实世界中的不确定性。选择合适的参数需要常识性物理推理,因此成为LLM的理想挑战。
DrEureka的实现
DrEureka采取多步骤的方法,同时优化奖励函数和领域随机化。首先,LLM根据安全指令和任务描述生成奖励函数。模型利用这些指令开发初步奖励函数,学习与原Eureka方法相似的策略。接着进行测试,确定最优物理参数(如摩擦力和重力),这些参数指导领域随机化配置的选择。随后,政策在这些配置下进行重训,提高其对现实世界噪声的适应能力。
研究人员将DrEureka形容为“一个驱动模拟到现实转移的语言模型流程,最小化人类干预”。
性能结果
研究团队在四足机器人和灵巧操作机器人平台上评估了DrEureka。结果显示,使用DrEureka训练的四足行走策略在前进速度上比传统人为设计的系统提高了34%,在各种地形上行驶距离则提高了20%。在灵巧操作测试中,DrEureka开发的最佳策略在固定时间内完成的立方体旋转次数是人类设计策略的300%。
一个引人注目的应用案例是DrEureka帮助一只机器人狗在瑜伽球上保持平衡并行走。LLM成功设计了奖励函数和DR配置,使其在现实环境中表现出色,无需额外调整,并且在各种室内和室外表面上都能有效运行,安全支持需求极少。
研究还发现,将安全指令纳入任务描述对LLM生成的指令在现实迁移中的逻辑一致性有着显著影响。
研究人员总结道:“我们相信,DrEureka展示了通过自动化低级技能获取的复杂设计元素,加速机器人学习研究的潜力。”