人类常通过表达行为来传达目标和意图。例如,我们点头问候同事,摇头表示不赞同,或说“打扰一下”以便在人群中穿行。为了与人类更顺畅地互动,移动机器人也需要展现类似的表现行为。然而,在机器人技术中,这仍然是一个重大挑战,现有解决方案通常缺乏灵活性和适应性。
在一项开创性研究中,多伦多大学、Google DeepMind和Hoku Labs的研究人员推出了GenEM,这是一种新颖的方法,利用大型语言模型(LLM)中蕴含的丰富社会情境,让机器人能够执行表达行为。通过多种提示方法,GenEM使机器人能够有效地解读环境并再现类人表达。
机器人中的表达行为
传统上,创建表现行为的机器人需要依赖规则或模板系统,这要求对每个机器人和环境进行大量手动输入。这种刚性意味着任何改变或调整都需要重新编程。现代技术逐渐向数据驱动的方法倾斜,这些方法提供了更大的灵活性,但通常需要针对每个机器人的交互定制专门的数据集。
GenEM通过利用LLM中丰富的知识,动态生成表现行为,从而重新定义了这一方法,省去了传统模型训练或复杂规则集的需要。例如,LLM能够识别在不同社交情境中眼神交流或点头的重要性。
“我们的关键洞察在于利用LLM中的丰富社会情境,创造适应性强且可组合的表现行为,”研究人员解释道。
生成性表达运动(GenEM)
GenEM采用一系列LLM代理,基于自然语言指令自主生成机器人表现行为。每个代理都会推理社交情境,并将这些行为转换为可供机器人执行的API调用。
“GenEM能够利用机器人的能力生成多模态行为,例如语音和身体动作,以清晰表达意图,”研究人员指出。“GenEM的一个突出特点是能够根据实时人类反馈进行调整,实现迭代改进和新表现行为的生成。”
GenEM的工作流程始于自然语言指令,既可以指定某种表现动作,例如“点头”,也可以设定社交情境,例如“一个路过的人向你挥手”。首先,LLM通过链式思维推理人类的潜在反应。然后,另一个LLM代理将其翻译成反映机器人可用功能的逐步指南,指导诸如倾头或触发特定灯光模式的动作。
接下来,程序指令被转化为可执行代码,依赖于机器人的API命令。可根据需要加入人类反馈,以进一步优化行为,而这一切都无需对LLM进行训练,仅需根据机器人规格进行提示工程调整。
测试GenEM
研究人员将GenEM生成的两种变体——一种包含用户反馈,另一种不包含——与专业动画师设计的脚本行为进行了比较。利用OpenAI的GPT-4进行情境推理和表现行为生成,他们调查了用户对结果的反应。结果显示,用户普遍认为GenEM生成的行为与专业动画师的表现同样易懂。此外,GenEM的模块化多步骤方法显著超过了之前的单一LLM方法。
重要的是,GenEM的基于提示的设计可以适配任何类型的机器人,而无需专门的数据集进行训练。它有效地利用LLM推理,从简单的机器人动作中创建复杂的表现行为。
“我们的框架通过上下文学习和少量提示快速生成表现行为,大大减少了对策划数据集或复杂规则制定的需求,这在早期方法中是常见的,”研究人员总结道。
尽管GenEM尚处于早期阶段,但主要在单一互动场景和有限的动作空间中进行了测试。探索具有更多多样化基本动作的机器人的潜力仍然很大,大型语言模型有望进一步增强这些能力。
“我们相信,我们的方法提供了一个灵活的框架,能够生成适应性强且可组合的表现动作,充分发挥大型语言模型的力量,”研究人员总结道。