1X创新生成模型:开创机器人交互的现实预测

机器人初创公司1X Technologies推出了一种突破性的生成模型,旨在提高在模拟环境中训练机器人系统的效率。根据他们最新的博客文章,该模型解决了机器人技术中的一个关键挑战:创建能够准确预测环境如何因机器人行为而变化的“世界模型”。

直接在物理空间中训练机器人成本高昂且风险重重,因此机器人研究人员通常依赖模拟环境进行模型开发,以便在现实部署之前进行测试。然而,模拟与实际物理环境之间的差异可能会带来重大挑战。

“机器人研究人员常常手动设计场景,作为现实世界的‘数字孪生’,并使用MuJoCo、Bullet和Isaac等刚体模拟器进行动态模拟,”1X Technologies的AI副总裁Eric Jang解释道。“然而,这些数字孪生在物理和几何上可能存在不准确之处,这导致了‘模拟与现实的差距’。例如,在线下载的门模型可能无法复制与测试中实际门把手相同的弹簧刚度。”

生成世界模型

为了解决这一问题,1X的新模型通过直接从机器人收集的原始传感器数据来学习模拟现实世界的动态。它分析了公司类人机器人在家庭和办公室环境中执行各种移动操作任务所产生的数千小时的视频和执行器数据。

“我们从1X办公室收集数据,并由一队安卓操作者进行注释和筛选,”Jang说道。“通过直接从真实交互中构建模拟器,我们可以随着交互数据池的扩展,实现与实际场景更紧密对齐的动态效果。”

该世界模型在模拟物体交互方面表现出色。公司分享的视频展示了模型准确预测情景的能力,例如机器人抓取箱子和与各种物体(包括刚性物体和可变形物品如窗帘和衣物)互动,同时考虑了复杂动态,例如避开障碍物和与人保持安全距离。

生成模型的挑战

尽管取得了进展,该模型仍然面临环境变化带来的持续挑战。与任何模拟器一样,随着运行环境的变化,它需要更新。然而,研究人员认为,该模型的学习方法使得更新变得更加简单。

“如果训练数据过时,生成模型可能会面临模拟与现实的差距,”Jang承认。“目标是创建一个可以不断利用新现实数据进行精细化的学习模拟器,而无需人工调整。”

1X的做法受到OpenAI Sora和Runway等先进技术的启发,这些技术表明生成模型可以在持续的训练数据支持下维持一致性。虽然其他模型通常从文本输入生成视频,但1X专注于在生成阶段动态响应的生成系统,使其在创新前沿。例如,谷歌研究人员采用类似技术训练生成模型,能够模拟互动环境,如游戏DOOM。

尽管已有这些进展,挑战仍然存在。缺乏明确的世界模拟器有时可能导致不现实的场景——例如,模型可能错误预测悬挂物体不会掉落,或可能导致物体在帧之间消失。解决这些问题需要持续的努力。

一个潜在的解决方案是在持续积累更多数据以增强模型训练。“在生成视频建模方面,最近的进展令人瞩目,OpenAI Sora的成果表明,扩大数据规模和计算能力可以带来显著改善,”Jang指出。

1X正在通过发布其模型和权重来积极吸引社区参与此项目,并计划举办提供现金奖励的竞赛,以鼓励参与者为模型优化贡献力量。

“我们正在探索各种世界建模和视频生成的方法,”Jang总结道,强调公司对持续创新的承诺。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles