最近,语言和视觉模型的进展显著提升了机器人系统根据文本或图像执行指令的能力。然而,这些方法仍存在局限性。
斯坦福大学和谷歌DeepMind的研究人员提出了一种新方法,使用草图作为机器人指令。草图提供了丰富的空间信息,帮助机器人更有效地完成任务,避免了逼真图像的杂乱和自然语言的模糊问题。
RT-Sketch的介绍
研究人员开发了RT-Sketch,这是一种利用草图来控制机器人的模型。该模型在标准条件下的表现与基于语言和图像的代理模型相当,但在语言和图像指令不足的情况下表现更佳。
为什么选择草图?
虽然语言能够直接传达目标,但在需要精确操作的任务(如物品摆放)中,语言却显得不够便利。尽管图像可以详细展示所需目标,但获取目标图像通常不切实际,且预先录制的图像可能包含过多细节,导致过拟合并影响新环境的适应能力。
“我们最初设想让机器人理解组装手册,如宜家的示意图,并执行必要的操作,”斯坦福大学博士生、研究主导作者Priya Sundaresan表示。“语言在空间任务中常常过于模糊,且现有图像可能并不可用。”
因此,团队选择使用草图,因为它们简单易画且富有信息,能够有效传达空间安排,而无需像素级的细节,从而帮助模型识别与任务相关的物品,提升其泛化能力。
“我们视草图为人类指示机器人更便捷、表达更丰富的重要一步,”Sundaresan解释说。
RT-Sketch模型
RT-Sketch建立在RT-1(机器人变压器1)模型的基础上,该模型将语言指令转化为机器人指令。研究人员调整了该架构,以使用视觉目标,包括草图和图像。
为了训练RT-Sketch,团队利用RT-1数据集,该数据集包含80,000段虚拟现实远程操作任务的录音,如物品操作和柜子操作。起初,他们从这些演示中选择了500个例子,并从最终视频帧制作了手绘草图。这些草图和相应的视频帧被用来训练一个生成对抗网络(GAN),该网络将图像转换为草图。
训练与功能
GAN生成草图用于训练RT-Sketch模型,并通过多样化模拟不同的手绘风格。在运行时,模型接受场景图像和目标物体的粗略草图,生成一系列命令以使机器人实现指定目标。
“RT-Sketch特别适合处理空间任务,这些任务用详细的语言指令可能显得繁琐,或者在没有图像时必不可少,”Sundaresan表示。
例如,设置餐桌时,“将餐具放在盘子旁边”这样的语言可能导致歧义,多次互动可能需要澄清模型的理解。相比之下,一个简单的草图可以清晰地指示期望的排列。
“RT-Sketch还可以帮助进行如拆卸物品、在新空间中摆放家具,以及复杂的多步骤任务如折叠衣物等,”Sundaresan补充道。
RT-Sketch的评估
研究人员在多种情境中测试RT-Sketch,评估六种操作技能,如移动物体、击打罐子和打开抽屉。该模型在基本操作任务中的表现与现有的基于图像和语言的模型相当,并在目标难以表述的情况下超越了语言模型。
“这表明草图在有效性上取得了良好的平衡;它们简洁明了,避免了视觉干扰造成的混淆,同时保留了必要的语义和空间上下文,”Sundaresan指出。
未来方向
展望未来,研究人员计划探索草图的更广泛应用,可能将其与语言、图像和人类手势等其他方式结合。DeepMind在多模态方法上有多个机器人模型,而RT-Sketch的发现可能会增强这些系统。他们对草图在视觉表达之外的多种潜力充满期待。
“草图可以用箭头传达动态,用部分草图表示子目标,用涂鸦指示约束条件,为我们尚未研究的操作任务提供宝贵信息,”Sundaresan总结道。