Meta AIの研究者たちは、人工知能(AI)が「実体質問応答」(Embodied Question Answering—EQA)における能力を評価するための革新的なオープンソースベンチマークデータセット「OpenEQA」を発表しました。この能力により、AIは現実の世界を理解し、さまざまな環境に関する自然言語の質問に正確に応答できるようになります。
「開発されたOpenEQAデータセットは、実体AIの新しい分野にとって重要なリソースであり、180以上の現実世界の環境に関連する1,600以上の質問を含んでいます。これらの質問は、物体と属性の認識、空間的推論、機能的推論、常識に関する知識の評価を厳密に行うために、7つの異なるタイプに分類されています。」と研究者たちは発表で述べています。EQAは、AIエージェントが世界を理解するための意味のある応用と評価の枠組みを提供します。「EQAは、環境を理解し、それに基づいて自然な言語で質問に答える能力を必要とします。」
特に、GPT-4Vのような先進的なモデルでさえも、OpenEQAにおける人間のパフォーマンスに対して課題に直面しており、このベンチマークがAIの実世界における質問の理解と応答能力を厳しく評価していることを反映しています。
AIの多様な分野を結ぶ
OpenEQAプロジェクトは、コンピュータビジョン、自然言語処理、知識表現、ロボティクスなど、さまざまな先端技術の分野をつなぎます。最終的な目標は、周囲を認識し、人と自然に会話し、日常生活を向上させるための知識を利用できる人工エージェントの創造です。
研究者たちは、この「実体知能」の2つの主要な応用を見込んでいます。第一に、拡張現実のメガネやヘッドセットに統合されたAIアシスタントが、映像やセンサーデータを活用してユーザーに写真のような記憶を提供し、「鍵をどこに置いたか?」といった質問に答えることができます。第二に、移動ロボットは自律的に環境をナビゲートし、「コーヒーは残っているか?」などの情報を収集できます。
厳格な評価基準の確立
OpenEQAデータセットの開発にあたり、Metaの研究者たちはまず、現実世界の映像や3Dスキャンを収集しました。その後、個人に対し、その視覚データにアクセスできるAIアシスタントに対する質問を考えてもらいました。
データセットには、広範な認知と推論スキルを評価する1,636の質問が含まれています。たとえば、「ダイニングテーブルの周りには何脚の椅子がありますか?」と答えるには、AIが物体を特定し、「周囲」という空間的な用語を理解し、関連するアイテムを数える必要があります。また、他の質問では物体の使用法や属性についての基本的な理解が求められます。
正確性を高めるため、各質問には複数の人間が生成した回答が含まれており、さまざまな応答の可能性を認めています。AIのパフォーマンスを評価するために、研究者たちは大規模言語モデルを利用して、AIが生成した回答と人間の回答の類似度を自動的に評価しました。
この新たなアプローチによって、AIの理解力と応答能力が一層向上することが期待されています。