OpenVLA：开源通用机器人框架，适用于多样化应用

Home AI News CN OpenVLA：开源通用机器人框架，适用于多样化应用

基础模型与机器人技术：OpenVLA的崛起

基础模型的突破性发展为机器人技术带来了显著进步，尤其是在视觉-语言-行动（VLA）模型的形成方面。这些模型能够超越初始训练数据，对物体、场景和任务进行有效的泛化。然而，由于其封闭性及缺乏最佳实践，OpenVLA的应用受到了限制。

OpenVLA的介绍

为了解决这些挑战，来自斯坦福大学、加州大学伯克利分校、丰田研究所、谷歌深度学习等机构的研究人员共同推出了OpenVLA，这是一个基于多样化真实机器人演示数据训练的开源VLA模型。OpenVLA不仅在机器人任务中表现优越，还支持轻松微调以增强在多任务环境中的性能。该模型被设计为高效利用优化技术，只需要最小的微调成本即可在消费级GPU上运行。

视觉-语言-行动模型的重要性

传统的机器人操控方法在训练场景之外通常会面临泛化能力不足的问题，容易受到干扰或面对未见物体时表现乏力。同时，他们对于轻微变化的任务指令适应难度较大。相比之下，大型语言模型（LLM）和视觉-语言模型（VLM）因其广泛的互联网预训练数据集而在泛化方面表现出色。最近，研究实验室开始将LLM和VLM作为开发机器人策略的基础组件。

主要有两种方法：一种是利用预训练的LLM和VLM在模块化系统中进行任务规划和执行，另一种是从头开始构建VLA以生成直接的机器人控制指令。RT-2和RT-2-X等应用实例为通用机器人策略设立了新的基准。

然而，当前的VLA仍面临两个主要挑战：封闭的架构限制了训练和数据混合的透明度，缺乏在新机器人和任务中部署和适应的标准实践。研究人员强调需要开源的通用VLA，以促使有效的适应，类似于现有的语言模型开源生态系统。

OpenVLA的架构

OpenVLA拥有70亿个参数，基于Prismatic-7B视觉-语言模型，包含一个用于图像特征提取的双部分视觉编码器，以及用于处理指令的LLaMA-2 7B语言模型。OpenVLA在Open-X Embodiment数据集上的97万个机器人操控轨迹上进行微调，覆盖广泛的机器人任务和环境，同时生成映射到特定机器人动作的动作标记。

OpenVLA接收自然语言指令和输入图像，通过二者进行推理，以确定完成诸如“擦桌子”等任务所需的最佳行动顺序。令人瞩目的是，它在WidowX和谷歌机器人体上超越了之前被认为是最先进的55亿参数RT-2-X模型。

微调与效率

研究人员在七个操控任务中探索了高效的微调策略，结果显示微调后的OpenVLA策略优于未微调的模型，尤其是在将语言指令转换为涉及多种物体的多任务行为时。OpenVLA在所有测试任务中独特地实现了超过50%的成功率，这使其成为多样化场景中模仿学习的可靠选择。

为了提高可及性和效率，研究团队采用了低秩适应（LoRA）进行微调，在单个A100 GPU上实现任务特定调整，只需10-15小时，显著降低了计算需求。同时，模型量化进一步减少了模型规模，使其能够在消费者级GPU上部署，而不损失性能。

OpenVLA的开源

研究人员已经将整个OpenVLA模型的代码、部署和微调笔记本开源，为可扩展的VLA训练提供了支持。他们期望这些资源能够激发进一步探索和适应VLA在机器人中的应用。该库支持在单个GPU上进行微调，并能在多节点GPU集群中安排十亿参数的VLA训练，符合现代优化和并行化技术。

未来，OpenVLA的发展将纳入多种图像和本体感知输入，以及观察历史。此外，利用在交错的图像和文本数据上预训练的VLM可能增强VLA微调的灵活性。

借助OpenVLA，机器人社区正站在重大发展的边缘，使VLA模型在多样化应用中更易获得与适应。

Decagon发布‘类人’人工智能代理，掀起企业客户支持的革命！

Augie Studio：像Canva一样为营销人员和企业革新AI视频创作

Most people like

DeepL

202.2M

DeepL是一款高效精准的翻译工具，能够实时翻译文本和文档，帮助用户轻松理解多种语言。

翻译器翻译

HappyPagesAI

个性化设计的AI着色页生成器，让您的创意与科技完美融合。通过先进的人工智能技术，轻松生成独特的着色页，既适合儿童，又适合成人。无论是在家中放松，还是作为艺术创作的一部分，这款工具都能为您带来无穷乐趣与灵感。开始探索个性化的着色体验，释放您的想象力吧！

AI 塗色頁生成器 AI艺术生成器

lalamu.studio

126.1K

Lalamu Studio为艺术家和设计师提供多样化的创意工具和丰富的资源，助力他们实现灵感与想法的转化。

艺术 AI艺术生成器

Autify

40.1K

引入AI驱动的软件测试自动化平台，彻底改变了软件开发流程。通过智能化的测试管理与执行，这些先进的平台不仅显著提高了测试效率，还能降低错误率。无论是初创企业还是大型企业，AI驱动的测试解决方案都可以为它们的产品质量保障与时间成本优化提供强有力的支持。

人工智能驱动的测试平台其他

Find AI tools in YBX