Meta AI研究人员推出了OpenEQA,这是一种创新的开源基准数据集,旨在评估人工智能系统在“具身问答”方面的能力。这种能力使AI能够理解现实世界,并准确回答有关不同环境的自然语言询问。
OpenEQA数据集被定位为“具身AI”新兴领域的重要资源,包含超过1600个问题,涉及180多种真实环境,如家庭和办公室。这些问题被分为七种不同类型,以严格评估AI在物体和属性识别、空间推理、功能推理以及常识知识方面的技能。
研究人员在发布中指出:“具身问答(EQA)既是一个有意义的应用,也是评估AI代理对世界理解能力的框架。EQA要求对环境有足够的理解,以便用自然语言回答相关问题。”
值得注意的是,即使是高级模型如GPT-4V,在OpenEQA上的表现也未能完全匹配人类,反映了该基准在评估AI理解和回应现实问题能力方面的严格性。
连接多领域AI
OpenEQA倡议连接了计算机视觉、自然语言处理、知识表示和机器人学等多个前沿领域。最终目标是创造能够感知和与周围环境互动的人工代理,进行自然交流,同时利用知识提升日常生活品质。
研究人员展望了“具身智能”的两种主要应用。首先,集成于增强现实眼镜或耳机中的AI助手可以利用视频和传感器数据,为用户提供“摄影记忆”,回答诸如“我把钥匙放在哪了?”等问题。其次,移动机器人可以自主导航环境以获取信息,例如: “我还有咖啡吗?”
建立严格的评估标准
在开发OpenEQA数据集时,Meta研究人员首先收集了真实环境的视频和3D扫描数据。随后,他们邀请个人提出可能向具有该视觉数据访问权限的AI助手询问的问题。
该数据集包括1636个问题,涵盖广泛的感知和推理技能。例如,回答“餐桌周围有多少把椅子?”需要AI识别物体、理解“周围”这一空间概念并进行计数。其他问题则要求对物体的用途和属性有基本理解。
为了提升准确性,每个问题提供多个由人类生成的答案,以承认可能存在的不同回应。研究人员利用大型语言模型自动评估AI生成答案与人类回应之间的相似度,以此评估AI的表现。