DeepMind的GenEM利用大型语言模型创造生动的机器人行为

Home AI News CN DeepMind的GenEM利用大型语言模型创造生动的机器人行为

人类常通过表达行为来传达目标和意图。例如，我们点头问候同事，摇头表示不赞同，或说“打扰一下”以便在人群中穿行。为了与人类更顺畅地互动，移动机器人也需要展现类似的表现行为。然而，在机器人技术中，这仍然是一个重大挑战，现有解决方案通常缺乏灵活性和适应性。

在一项开创性研究中，多伦多大学、Google DeepMind和Hoku Labs的研究人员推出了GenEM，这是一种新颖的方法，利用大型语言模型（LLM）中蕴含的丰富社会情境，让机器人能够执行表达行为。通过多种提示方法，GenEM使机器人能够有效地解读环境并再现类人表达。

机器人中的表达行为

传统上，创建表现行为的机器人需要依赖规则或模板系统，这要求对每个机器人和环境进行大量手动输入。这种刚性意味着任何改变或调整都需要重新编程。现代技术逐渐向数据驱动的方法倾斜，这些方法提供了更大的灵活性，但通常需要针对每个机器人的交互定制专门的数据集。

GenEM通过利用LLM中丰富的知识，动态生成表现行为，从而重新定义了这一方法，省去了传统模型训练或复杂规则集的需要。例如，LLM能够识别在不同社交情境中眼神交流或点头的重要性。

“我们的关键洞察在于利用LLM中的丰富社会情境，创造适应性强且可组合的表现行为，”研究人员解释道。

生成性表达运动（GenEM）

GenEM采用一系列LLM代理，基于自然语言指令自主生成机器人表现行为。每个代理都会推理社交情境，并将这些行为转换为可供机器人执行的API调用。

“GenEM能够利用机器人的能力生成多模态行为，例如语音和身体动作，以清晰表达意图，”研究人员指出。“GenEM的一个突出特点是能够根据实时人类反馈进行调整，实现迭代改进和新表现行为的生成。”

GenEM的工作流程始于自然语言指令，既可以指定某种表现动作，例如“点头”，也可以设定社交情境，例如“一个路过的人向你挥手”。首先，LLM通过链式思维推理人类的潜在反应。然后，另一个LLM代理将其翻译成反映机器人可用功能的逐步指南，指导诸如倾头或触发特定灯光模式的动作。

接下来，程序指令被转化为可执行代码，依赖于机器人的API命令。可根据需要加入人类反馈，以进一步优化行为，而这一切都无需对LLM进行训练，仅需根据机器人规格进行提示工程调整。

测试GenEM

研究人员将GenEM生成的两种变体——一种包含用户反馈，另一种不包含——与专业动画师设计的脚本行为进行了比较。利用OpenAI的GPT-4进行情境推理和表现行为生成，他们调查了用户对结果的反应。结果显示，用户普遍认为GenEM生成的行为与专业动画师的表现同样易懂。此外，GenEM的模块化多步骤方法显著超过了之前的单一LLM方法。

重要的是，GenEM的基于提示的设计可以适配任何类型的机器人，而无需专门的数据集进行训练。它有效地利用LLM推理，从简单的机器人动作中创建复杂的表现行为。

“我们的框架通过上下文学习和少量提示快速生成表现行为，大大减少了对策划数据集或复杂规则制定的需求，这在早期方法中是常见的，”研究人员总结道。

尽管GenEM尚处于早期阶段，但主要在单一互动场景和有限的动作空间中进行了测试。探索具有更多多样化基本动作的机器人的潜力仍然很大，大型语言模型有望进一步增强这些能力。

“我们相信，我们的方法提供了一个灵活的框架，能够生成适应性强且可组合的表现动作，充分发挥大型语言模型的力量，”研究人员总结道。

AMD推出嵌入式+架构，革新边缘AI硬件

梅诺创投的愿景：塑造人工智能安全的未来