메타 AI 연구진은 "구체적 질문 응답(Embodied Question Answering, EQA)" 능력을 평가하기 위해 설계된 혁신적인 오픈 소스 벤치마크 데이터셋인 OpenEQA를 공개했습니다. 이 기능은 AI가 실제 세계를 이해하고 다양한 환경에 대한 자연어 문의에 정확하게 응답할 수 있도록 합니다.
"구체적 AI" 분야의 핵심 자원으로 자리잡은 OpenEQA 데이터셋은 가정과 사무실 등 180개 이상의 실제 환경에 관한 1,600개 이상의 질문으로 구성되어 있습니다. 이 질문들은 객체 및 속성 인식, 공간 추론, 기능적 추론, 상식 지식 등 AI의 역량을 철저히 평가하기 위해 일곱 가지 유형으로 분류되어 있습니다.
연구자들은 "구체적 질문 응답은 AI 에이전트가 세계를 이해하는 방식을 평가하는 의미 있는 적용 사례이자 프레임워크"라고 강조했습니다. "EQA는 자연어로 질문에 답할 수 있을 만큼 환경을 충분히 이해하는 것을 포함합니다."
특히 GPT-4V와 같은 고급 모델조차 OpenEQA에서 인간 성과와 일치하는 데 어려움을 겪어, 이 벤치마크가 AI의 실제 질문 이해 및 응답 능력을 평가하는 rigor를 반영하고 있습니다.
AI의 다양한 분야 융합
OpenEQA 프로젝트는 컴퓨터 비전, 자연어 처리, 지식 표현, 로봇공학 등 여러 최신 인공지능 분야를 연결합니다. 궁극적인 목표는 주변을 인식하고 상호작용할 수 있는 인공지능 에이전트를 개발하여, 인간과 자연스러운 대화를 나누고 일상생활을 향상시키는 것입니다.
연구자들은 "구체적 지능"의 두 가지 주요 응용 분야를 구상하고 있습니다. 첫째, 증강 현실 안경이나 헤드셋에 통합된 AI 보조기는 비디오 및 센서 데이터를 활용하여 사용자에게 사진과 같은 기억을 제공하며, "내 열쇠를 어디에 두었지?"와 같은 질문에 답할 수 있습니다. 둘째, 이동 로봇은 환경을 자율적으로 탐색하며 "커피가 남아있나?"와 같은 정보를 수집할 수 있습니다.
철저한 평가 기준 수립
OpenEQA 데이터셋을 개발하기 위해 메타 연구진은 실제 환경의 비디오 영상 및 3D 스캔을 수집하는 것으로 시작했습니다. 그 후, 시각적 데이터에 접근할 수 있는 AI 보조기에게 제기할 질문을 작성할 수 있는 사람들을 초대했습니다.
이 데이터셋은 다양한 인식 및 추론 능력을 평가하는 1,636개의 질문을 포함하고 있습니다. 예를 들어, "식탁 주위에 의자가 몇 개 있나요?"라는 질문에 답하기 위해서는 AI가 객체를 식별하고 "주위"라는 공간 개념을 이해하며 해당 항목을 세어야 합니다. 다른 질문들은 객체의 용도와 속성에 대한 기본적인 이해를 필요로 합니다.
정확성을 높이기 위해 각 질문에는 여러 인간-generated 답변이 포함되어 있으며, 다양한 응답이 가능함을 인정합니다. AI 성능을 평가하기 위해 연구자들은 대형 언어 모델을 활용하여 AI가 생성한 답변과 인간의 응답 간 유사성을 자동으로 측정했습니다.