近期,利用大型语言模型(LLMs)开发创新机器人应用的项目激增,许多曾被认为不可能实现的功能现在变得可行。LLMs与多模态模型的强大能力使研究人员能够创建能够处理自然语言指令并执行复杂任务的机器人,这些任务需要高级推理能力。
LLMs与机器人技术交汇的兴趣日益上升,复兴了机器人初创公司生态,许多公司获得了可观的资金支持,并展示了令人印象深刻的演示。随着LLMs在实际应用中取得显著进展,我们或许正处于机器人技术新纪元的边缘。
语言模型在感知与推理方面的应用
传统上,构建机器人系统需要复杂的工程工作来开发规划和推理模块,使得创建用户友好的界面以适应人们多样化的指令方式变得困难。LLMs和视觉语言模型(VLMs)的出现让机器人工程师能够以创新的方式提升现有系统。谷歌研究开发的SayCan项目就是一个重要的例子。SayCan利用LLM中嵌入的语义知识,帮助机器人推理任务并确定合适的动作序列。
“SayCan是机器人学领域最具影响力的论文之一,”AI与机器人研究科学家克里斯·帕克斯顿(Chris Paxton)表示。“它的模块化设计允许集成不同组件,创建能够进行引人注目演示的系统。”
在SayCan之后,研究人员开始以多种方式探索语言和视觉模型在机器人中的应用,取得显著进展。一些项目采用通用的LLMs和VLMs,而其他项目则专注于为特定机器人任务定制现有模型。
“使用大型语言模型和视觉模型,使得感知与推理等方面变得更加可及,”帕克斯顿指出。“这让许多机器人任务比以往更加可实现。”
结合现有能力
传统机器人系统的主要局限在于其控制机制。团队可以为机器人训练单一技能,比如开门或操作物体,但将这些技能结合起来执行复杂任务往往较为困难,导致系统僵化,需要明确的指令。LLMs和VLMs使机器人能够解释模糊的指令并将其映射到与其能力相一致的特定任务序列。值得注意的是,许多先进模型能够在不进行广泛再训练的情况下实现这一点。
“利用大型语言模型,我可以无缝连接不同的技能,并推理它们的应用,”帕克斯顿说明道。“新的视觉语言模型如GPT-4V展示了这些系统如何在多种应用中有效协作。”
例如,由多伦多大学、谷歌深度学习(Google DeepMind)和Hoku Labs共同开发的GenEM技术,利用LLMs中捕捉的全面社会背景生成富有表现力的机器人行为。通过利用GPT-4,GenEM使得机器人能够理解上下文——比如点头以表示承认某人存在——并执行相关的动作。
另一个例子是由Meta和纽约大学开发的OK-Robot,它将VLMs与运动规划和物体操控模块相结合,以在陌生环境中执行提取和放置任务。
一些机器人初创公司在这些进展中蓬勃发展。例如,位于加州的机器人公司Figure最近募集了6.75亿美元,致力于开发利用视觉和语言模型的人形机器人。该公司的机器人通过OpenAI模型处理指令并进行战略行动规划。
尽管LLMs和VLMs解决了重大挑战,机器人团队仍需为基本技能如物体抓取、障碍物导航以及在多样环境中的移动进行系统工程。“在这些模型尚未涵盖的基础层面上,还有大量工作在进行,”帕克斯顿指出。“这种复杂性强调了数据的需求,许多公司正在努力生成这些数据。”
专业基础模型
另一种有前景的方法是创建专门针对机器人任务的基础模型,依托于预训练模型中积累的丰富知识,同时定制其架构以满足机器人特定需求。谷歌的RT-2是这一领域的重要成果,它是一个视觉语言动作(VLA)模型,能够处理感知数据和语言指令,从而生成可执行的机器人命令。
最近,谷歌深度学习推出了RT-X-2,这是RT-2的增强版本,能够根据各种机器人形态适应任务,甚至执行其训练数据集中未包含的任务。此外,深度学习与斯坦福大学的合作项目RT-Sketch,可以将粗略草图转换为可执行的机器人动作计划。
“这些模型代表了一种新方法,是一个能够应对多任务的广泛政策,”帕克斯顿评论道。“这是一个激动人心的方向,得益于端到端学习,即机器人能够从摄像头获取其行动。”
面向商业领域的机器人基础模型也在日益增加。Covariant最近推出了RFM-1,这是一种拥有80亿参数的变换模型,训练于来自文本、图像、视频和机器人动作的多样输入,旨在为各种机器人应用创建一个多功能基础模型。
与此同时,在Nvidia GTC展会上展示的GR00T项目,致力于使人形机器人能够处理文本、语音和视频等输入,并将其转化为具体动作。
语言模型的潜力尚未被完全开发,未来将继续推动机器人技术的发展。随着LLMs的不断进化,我们可以期待在机器人领域的突破性创新。