东京大学与Alternative Machine的研究人员开发了一种名为Alter3的人形机器人系统,能够将自然语言指令直接转换为机器人的动作。Alter3利用了诸如GPT-4等大型语言模型(LLMs)所蕴含的丰富知识,能够执行复杂任务,如自拍或模拟鬼魂。
这一创新标志着基础模型与机器人系统整合的重要进展。尽管可扩展的商业解决方案仍在研发中,近期的进展为机器人研究注入了活力,并展现了巨大潜力。
将语言转化为机器人行为
Alter3以GPT-4为核心模型,解析自然语言指令,以指导机器人执行特定任务。该模型采用“智能框架”来制定完成指定目标所需的行动步骤。最开始,它充当计划者,确定完成任务所需的步骤顺序。
Alter3采用多种GPT-4提示格式来分析指令并将其映射到机器人的命令上。由于GPT-4未专门训练过Alter3的编程指令,研究人员利用其上下文学习能力将模型输出调整为机器人API。这包括提供指令列表及其用法示例,使模型能够将每个行动步骤翻译成可执行的API命令。
研究人员提到:“过去,我们需手动控制所有43个轴,以特定顺序复制人类姿势或模拟行动,如泡茶或下棋。借助大型语言模型,我们摆脱了这一劳动密集的过程。”
引入人类反馈
鉴于语言描述物理动作时可能不够精确,模型生成的动作序列并不总能产生预期的机器人行为。为了解决这一问题,研究人员整合了一种反馈机制,使用户可以精细化指令,例如“再抬高一点手臂”。这些修正由另一个GPT-4代理处理,调整代码并返回修改后的动作序列供机器人执行。优化后的计划和代码将被存储以便将来使用。
人类反馈和记忆的引入显著提升了Alter3的性能。研究人员在各种任务上评估了该机器人,从简单的自拍和饮茶到更复杂的模仿,如模拟鬼魂或蛇的动作。该模型还展示了处理需要复杂规划的场景的能力。
团队解释道:“大型语言模型的训练涵盖了各种关于动作的语言表示,GPT-4能够准确翻译成Alter3的命令。”
凭借对人类行为的深刻理解,GPT-4能够有效生成真实的人形机器人行为计划。在实验中,团队还成功赋予Alter3如尴尬和喜悦等情感表情。
研究人员强调:“即使是那些未明确提及情感线索的文本,LLM也能够推断出适当的情感,并在Alter3的物理反应中体现出来。”
机器人模型的进展
基础模型在机器人研究中的应用正迅速受到关注。例如,市值26亿美元的Figure公司利用OpenAI的模型来解读人类指令并执行相应的现实世界行为。随着基础模型多模态能力的提升,机器人系统有望改善其环境推理与决策能力。
Alter3很好的体现了一个趋势:现成的基础模型作为机器人控制系统中的推理和规划模块。重要的是,它并未依赖于经过微调的GPT-4,因此其代码也适用于其他人形机器人。
项目如RT-2-X和OpenVLA利用专门设计的基础模型直接生成机器人指令。尽管这些模型通常能产生更稳定的结果并在不同任务和环境中更具通用性,但它们需要更高的技术专业知识和开发成本。
然而,许多此类项目常常忽视一个基本挑战,即使机器人执行基本任务(如抓取物体、保持平衡和环境导航)仍然需要大量工作。人工智能与机器人科学家Chris Paxton在最近的采访中表示:“在这些模型所涉及的层面之下,仍有大量工作正在进行。这些工作充满挑战,主要原因是缺乏现有数据。”