最近,视觉语言模型(VLMs)的进展使得自然语言查询与视觉场景中的物体匹配成为可能。研究人员正在探索如何将这些模型整合到机器人系统中,而许多机器人系统在推广其能力方面面临挑战。
Meta AI 和纽约大学的研究人员提出了一种名为 OK-Robot 的开放知识框架。这一创新系统结合了预训练的机器学习(ML)模型,能够在不熟悉的环境中执行取放操作,而无需额外的训练。
当前机器人系统的挑战
大多数机器人系统都是为之前遇到的环境设计的,这限制了它们在新的设置中,尤其是像家居这样的非结构化空间中的适应能力。尽管在各种组件上取得了显著进展——例如,VLMs 在将语言提示与视觉物体联系方面表现出色,而机器人在导航和抓取技能方面也在不断提升——但将这些技术整合在一起仍然无法达到理想的效果。
研究人员指出:“解决这一问题需要一个谨慎且细致的框架,该框架集成 VLMs 和机器人基础操作,同时足够灵活,以融入 VLM 和机器人领域的新模型。”
OK-Robot 概述
OK-Robot 将尖端的 VLMs 与强大的机器人机制相结合,能够在未知环境中执行取放任务。它使用在广泛的公开数据集上训练的模型。
该框架由三个主要子系统组成:开放词汇物体导航模块、RGB-D 抓取模块和放置启发式系统。在进入新空间时,OK-Robot 需要进行手动扫描,用户可以使用 iPhone 应用轻松捕捉一系列 RGB-D 图像,以便在区域中移动。这些图像结合相机位置,创建 3D 环境地图。
每张图像通过视觉变换器(ViT)模型进行处理,以提取物体信息。这些数据与环境背景一起输入到语义物体记忆模块中,使系统能够响应自然语言查询,以获取物体。记忆模块计算语音提示的嵌入,并将其与最近的语义表示进行匹配。导航算法然后绘制到物体的最有效路径,确保机器人有足够的空间安全抓取物体。
最后,机器人配备 RGB-D 相机,结合物体分割模型和预训练的抓取模型,以拾取物品。在导航到放置点时,应用类似的方法。该系统使机器人能够针对不同类型的物体确定最合适的抓取方式,并处理可能不平坦的目的地。
“从进入全新环境到开始自主操作,我们的系统在完成第一次取放任务时平均耗时不到10分钟,”研究人员报告说。
测试与结果
研究人员在十个家庭中评估了 OK-Robot,共进行 171 次取放实验,成功完成操作的比例为58%,展示了其零-shot 能力——这意味着模型并未针对这些环境进行明确训练。通过优化输入查询、清理空间和减少干扰物体,成功率可以超过82%。
尽管具有潜力,OK-Robot 仍有局限性。它偶尔会将自然语言提示与正确对象对不上,难以完成某些抓取,并存在硬件限制。此外,物体记忆模块在扫描后仍然是静态的,无法适应物体位置或可用性的变化。
尽管面临这些挑战,OK-Robot 项目提出了重要见解。首先,它展示了当前开放词汇的 VLMs 在识别多样的真实世界物体和进行零-shot 学习方面的卓越能力。此外,研究确认了在广泛数据集上预训练的专业机器人模型能够无缝实现开放词汇抓取。最后,它强调了将预训练模型结合起来以完成零-shot 任务的潜力,为这一新兴领域的未来发展铺平道路。