Meta AI推出OpenEQA以提升人工智能代理的“具身智能”

Meta AI 研究人員公布了 OpenEQA,一個創新的開源基準數據集,旨在評估人工智慧系統在「具身提問回答」能力上的熟練度。此能力使 AI 能夠理解現實世界,並準確回答有關各種環境的自然語言提問。

作為「具身 AI」新興領域的一個關鍵資源,OpenEQA 數據集涵蓋超過 1,600 個問題,涉及180 多個現實世界的環境,如家居和辦公室。這些問題分為七種類別,嚴格評估 AI 在物體和屬性識別、空間推理、功能推理及常識知識方面的能力。

研究人員在發表的文章中指出:「具身提問回答 (EQA) 不僅是一個有意義的應用,也是評估 AI 代理對世界理解的框架。EQA 涉及充分理解環境,以自然語言回答有關該環境的問題。」值得注意的是,即使是像 GPT-4V 這樣的先進模型,在 OpenEQA 上也面臨著與人類表現匹配的挑戰,這反映了該基準在評估 AI 理解和回應現實問題上的嚴謹性。

聯結多個 AI 領域

OpenEQA 項目橋接了多個尖端人工智慧領域,包括計算機視覺、自然語言處理、知識表達和機器人技術。最終目標是創造能夠感知和互動環境的人工代理,與人類進行自然對話,並運用知識提升日常生活。

研究人員預見這種「具身智能」的兩個主要應用。首先,集成於增強現實眼鏡或耳機中的 AI 助手,能利用視頻和傳感器數據,為用戶提供照片記憶,回答類似「我把鑰匙放在哪裡?」的問題。其次,移動機器人可以自主導航環境以收集信息,比如確認「我還有咖啡嗎?」

建立嚴格的評估標準

在開發 OpenEQA 數據集的過程中,Meta 研究人員首先收集了現實環境的視頻和 3D 掃描,然後邀請個人提出他們希望詢問 AI 助手的問題,這些助手可以接入該視覺數據。

該數據集包括 1,636 個問題,評估廣泛的感知和推理能力。例如,回答「餐桌周圍有多少把椅子?」需要 AI 識別物體、理解空間詞彙「周圍」,並計算相關物品。其他問題則要求對物體的用途和屬性有基本了解。

為了提高準確性,每個問題都提供多個人類生成的答案,承認多樣的回答是可能的。為了評估 AI 表現,研究人員利用大型語言模型自動評估 AI 生成的答案與人類回應之間的相似度。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles