Os pesquisadores da Meta AI apresentaram o OpenEQA, um inovador conjunto de dados de referência de código aberto, projetado para avaliar a proficiência de sistemas de inteligência artificial em "respostas a perguntas incorporadas". Essa capacidade permite que a IA compreenda o mundo real e responda com precisão a perguntas em linguagem natural sobre diversos ambientes.
Posicionado como um recurso fundamental para o emergente campo da "IA incorporada", o conjunto de dados OpenEQA abrange mais de 1.600 perguntas relacionadas a mais de 180 ambientes do mundo real, como casas e escritórios. As perguntas estão categorizadas em sete tipos distintos para avaliar rigorosamente as habilidades da IA em reconhecimento de objetos e atributos, raciocínio espacial, raciocínio funcional e conhecimento comum.
"A resposta a perguntas incorporadas (EQA) serve tanto como uma aplicação significativa quanto como um framework para avaliar a compreensão de um agente de IA sobre o mundo", observaram os pesquisadores em sua publicação. "EQA envolve compreender um ambiente suficientemente para responder perguntas sobre ele em linguagem natural."
Notavelmente, até modelos avançados como o GPT-4V enfrentaram desafios para igualar o desempenho humano no OpenEQA, refletindo o rigor da referência na avaliação da capacidade da IA de compreender e responder a perguntas do mundo real.
Unindo diversos campos da IA
A iniciativa OpenEQA conecta várias áreas de ponta na inteligência artificial, incluindo visão computacional, processamento de linguagem natural, representação do conhecimento e robótica. O objetivo final é criar agentes artificiais capazes de perceber e interagir com seu entorno, engajando-se em conversas naturais com humanos e utilizando conhecimento para aprimorar a vida cotidiana.
Os pesquisadores visualizam duas aplicações principais para essa "inteligência incorporada". Primeiro, assistentes de IA integrados a óculos ou headsets de realidade aumentada poderiam aproveitar dados de vídeo e sensores para fornecer aos usuários uma memória fotográfica, respondendo a perguntas como: “Onde deixei minhas chaves?”. Segundo, robôs móveis poderiam navegar autonomamente por ambientes para coletar informações, como determinar: “Ainda tenho café?”
Estabelecendo um padrão de avaliação rigoroso
Ao desenvolver o conjunto de dados OpenEQA, os pesquisadores da Meta inicialmente coletaram gravações de vídeo e digitalizações 3D de cenários do mundo real. Em seguida, convidaram indivíduos a formular perguntas que fariam a um assistente de IA com acesso a esses dados visuais.
O conjunto de dados inclui 1.636 perguntas que avaliam uma ampla gama de habilidades de percepção e raciocínio. Por exemplo, responder "Quantas cadeiras estão ao redor da mesa de jantar?" exige que a IA identifique objetos, compreenda o termo espacial "ao redor" e conte os itens relevantes. Outras perguntas necessitam de uma compreensão fundamental sobre os usos e atributos dos objetos.
Para aumentar a precisão, cada pergunta apresenta múltiplas respostas geradas por humanos, reconhecendo que respostas diversas são possíveis. Para avaliar o desempenho da IA, os pesquisadores utilizaram grandes modelos de linguagem para medir automaticamente a similaridade entre as respostas geradas pela IA e as respostas humanas.