Los investigadores de Meta AI han presentado OpenEQA, un innovador conjunto de datos de benchmark de código abierto diseñado para evaluar la competencia de un sistema de inteligencia artificial en el "embodied question answering" (EQA). Esta capacidad permite a la IA comprender el mundo real y responder con precisión a preguntas en lenguaje natural sobre diversos entornos.
Considerado un recurso fundamental para el emergente campo de la "IA encarnada", el conjunto de datos de OpenEQA incluye más de 1,600 preguntas relacionadas con más de 180 entornos reales, como hogares y oficinas. Estas preguntas se clasifican en siete tipos distintos para evaluar rigurosamente las habilidades de la IA en reconocimiento de objetos y atributos, razonamiento espacial, razonamiento funcional y conocimiento común.
“El Embodied Question Answering (EQA) sirve tanto como una aplicación significativa como un marco para evaluar la comprensión del mundo por parte de un agente de IA”, señalaron los investigadores en su publicación. “El EQA implica entender un entorno lo suficientemente bien como para responder preguntas sobre él en lenguaje natural”.
Cabe destacar que incluso modelos avanzados como GPT-4V han encontrado dificultades para igualar el rendimiento humano en OpenEQA, lo que refleja la rigurosidad del benchmark en evaluar la capacidad de una IA para comprender y responder a preguntas del mundo real.
Conectando diversos campos de la IA
La iniciativa OpenEQA une varias áreas de vanguardia en inteligencia artificial, incluyendo visión por computadora, procesamiento de lenguaje natural, representación del conocimiento y robótica. El objetivo final es crear agentes artificiales capaces de percibir e interactuar con su entorno, mantener conversaciones naturales con los humanos y aprovechar el conocimiento para mejorar la vida cotidiana.
Los investigadores contemplan dos aplicaciones principales para esta "inteligencia encarnada". Primero, asistentes de IA integrados en gafas o auriculares de realidad aumentada podrían aprovechar datos de video y sensores para proporcionar a los usuarios una memoria fotográfica, respondiendo preguntas como, "¿Dónde dejé mis llaves?" En segundo lugar, robots móviles podrían navegar de manera autónoma por entornos para recopilar información, como determinar, "¿Me queda café?"
Estableciendo un estándar de evaluación riguroso
En el desarrollo del conjunto de datos de OpenEQA, los investigadores de Meta comenzaron por recopilar grabaciones de video y escaneos en 3D de entornos reales. Luego, invitaron a personas a formular preguntas que harían a un asistente de IA con acceso a esos datos visuales.
El conjunto de datos incluye 1,636 preguntas que evalúan una amplia gama de habilidades de percepción y razonamiento. Por ejemplo, responder "¿Cuántas sillas hay alrededor de la mesa?" requiere que la IA identifique objetos, comprenda el término espacial "alrededor" y cuente los elementos relevantes. Otras preguntas requieren una comprensión fundamental de los usos y atributos de los objetos.
Para mejorar la precisión, cada pregunta cuenta con múltiples respuestas generadas por humanos, reconociendo que las respuestas diversas son posibles. Para evaluar el rendimiento de la IA, los investigadores utilizaron modelos de lenguaje grande para medir automáticamente la similitud entre las respuestas generadas por la IA y las respuestas humanas.