Meta AI 研究人員公布了 OpenEQA,一個創新的開源基準數據集,旨在評估人工智慧系統在「具身提問回答」能力上的熟練度。此能力使 AI 能夠理解現實世界,並準確回答有關各種環境的自然語言提問。
作為「具身 AI」新興領域的一個關鍵資源,OpenEQA 數據集涵蓋超過 1,600 個問題,涉及180 多個現實世界的環境,如家居和辦公室。這些問題分為七種類別,嚴格評估 AI 在物體和屬性識別、空間推理、功能推理及常識知識方面的能力。
研究人員在發表的文章中指出:「具身提問回答 (EQA) 不僅是一個有意義的應用,也是評估 AI 代理對世界理解的框架。EQA 涉及充分理解環境,以自然語言回答有關該環境的問題。」值得注意的是,即使是像 GPT-4V 這樣的先進模型,在 OpenEQA 上也面臨著與人類表現匹配的挑戰,這反映了該基準在評估 AI 理解和回應現實問題上的嚴謹性。
聯結多個 AI 領域
OpenEQA 項目橋接了多個尖端人工智慧領域,包括計算機視覺、自然語言處理、知識表達和機器人技術。最終目標是創造能夠感知和互動環境的人工代理,與人類進行自然對話,並運用知識提升日常生活。
研究人員預見這種「具身智能」的兩個主要應用。首先,集成於增強現實眼鏡或耳機中的 AI 助手,能利用視頻和傳感器數據,為用戶提供照片記憶,回答類似「我把鑰匙放在哪裡?」的問題。其次,移動機器人可以自主導航環境以收集信息,比如確認「我還有咖啡嗎?」
建立嚴格的評估標準
在開發 OpenEQA 數據集的過程中,Meta 研究人員首先收集了現實環境的視頻和 3D 掃描,然後邀請個人提出他們希望詢問 AI 助手的問題,這些助手可以接入該視覺數據。
該數據集包括 1,636 個問題,評估廣泛的感知和推理能力。例如,回答「餐桌周圍有多少把椅子?」需要 AI 識別物體、理解空間詞彙「周圍」,並計算相關物品。其他問題則要求對物體的用途和屬性有基本了解。
為了提高準確性,每個問題都提供多個人類生成的答案,承認多樣的回答是可能的。為了評估 AI 表現,研究人員利用大型語言模型自動評估 AI 生成的答案與人類回應之間的相似度。