基础模型与机器人技术:OpenVLA的崛起
基础模型的突破性发展为机器人技术带来了显著进步,尤其是在视觉-语言-行动(VLA)模型的形成方面。这些模型能够超越初始训练数据,对物体、场景和任务进行有效的泛化。然而,由于其封闭性及缺乏最佳实践,OpenVLA的应用受到了限制。
OpenVLA的介绍
为了解决这些挑战,来自斯坦福大学、加州大学伯克利分校、丰田研究所、谷歌深度学习等机构的研究人员共同推出了OpenVLA,这是一个基于多样化真实机器人演示数据训练的开源VLA模型。OpenVLA不仅在机器人任务中表现优越,还支持轻松微调以增强在多任务环境中的性能。该模型被设计为高效利用优化技术,只需要最小的微调成本即可在消费级GPU上运行。
视觉-语言-行动模型的重要性
传统的机器人操控方法在训练场景之外通常会面临泛化能力不足的问题,容易受到干扰或面对未见物体时表现乏力。同时,他们对于轻微变化的任务指令适应难度较大。相比之下,大型语言模型(LLM)和视觉-语言模型(VLM)因其广泛的互联网预训练数据集而在泛化方面表现出色。最近,研究实验室开始将LLM和VLM作为开发机器人策略的基础组件。
主要有两种方法:一种是利用预训练的LLM和VLM在模块化系统中进行任务规划和执行,另一种是从头开始构建VLA以生成直接的机器人控制指令。RT-2和RT-2-X等应用实例为通用机器人策略设立了新的基准。
然而,当前的VLA仍面临两个主要挑战:封闭的架构限制了训练和数据混合的透明度,缺乏在新机器人和任务中部署和适应的标准实践。研究人员强调需要开源的通用VLA,以促使有效的适应,类似于现有的语言模型开源生态系统。
OpenVLA的架构
OpenVLA拥有70亿个参数,基于Prismatic-7B视觉-语言模型,包含一个用于图像特征提取的双部分视觉编码器,以及用于处理指令的LLaMA-2 7B语言模型。OpenVLA在Open-X Embodiment数据集上的97万个机器人操控轨迹上进行微调,覆盖广泛的机器人任务和环境,同时生成映射到特定机器人动作的动作标记。
OpenVLA接收自然语言指令和输入图像,通过二者进行推理,以确定完成诸如“擦桌子”等任务所需的最佳行动顺序。令人瞩目的是,它在WidowX和谷歌机器人体上超越了之前被认为是最先进的55亿参数RT-2-X模型。
微调与效率
研究人员在七个操控任务中探索了高效的微调策略,结果显示微调后的OpenVLA策略优于未微调的模型,尤其是在将语言指令转换为涉及多种物体的多任务行为时。OpenVLA在所有测试任务中独特地实现了超过50%的成功率,这使其成为多样化场景中模仿学习的可靠选择。
为了提高可及性和效率,研究团队采用了低秩适应(LoRA)进行微调,在单个A100 GPU上实现任务特定调整,只需10-15小时,显著降低了计算需求。同时,模型量化进一步减少了模型规模,使其能够在消费者级GPU上部署,而不损失性能。
OpenVLA的开源
研究人员已经将整个OpenVLA模型的代码、部署和微调笔记本开源,为可扩展的VLA训练提供了支持。他们期望这些资源能够激发进一步探索和适应VLA在机器人中的应用。该库支持在单个GPU上进行微调,并能在多节点GPU集群中安排十亿参数的VLA训练,符合现代优化和并行化技术。
未来,OpenVLA的发展将纳入多种图像和本体感知输入,以及观察历史。此外,利用在交错的图像和文本数据上预训练的VLM可能增强VLA微调的灵活性。
借助OpenVLA,机器人社区正站在重大发展的边缘,使VLA模型在多样化应用中更易获得与适应。