Meta AI lance OpenEQA pour améliorer l'« intelligence incarnée » des agents artificiels.

Les chercheurs de Meta AI ont dévoilé OpenEQA, un ensemble de données de référence innovant et open-source, conçu pour évaluer la compétence d'un système d'intelligence artificielle en matière de "réponse à des questions incarnées". Cette capacité permet à l'IA de comprendre le monde réel et de répondre précisément aux questions en langage naturel concernant divers environnements.

Positionné comme une ressource essentielle pour le domaine émergent de l'"IA incarnée", l'ensemble de données OpenEQA se compose de plus de 1 600 questions liées à plus de 180 environnements réels, tels que des maisons et des bureaux. Ces questions sont classées en sept types distincts pour évaluer rigoureusement les compétences de l'IA en reconnaissance d'objets et d'attributs, en raisonnement spatial, en raisonnement fonctionnel, et en connaissances communes.

"La réponse à des questions incarnées (EQA) constitue à la fois une application significative et un cadre d’évaluation de la compréhension du monde par un agent IA", notent les chercheurs dans leur publication. "L'EQA implique de comprendre un environnement suffisamment pour répondre à des questions à son sujet en langage naturel."

Il est remarquable que même des modèles avancés comme GPT-4V aient rencontré des difficultés pour atteindre la performance humaine sur OpenEQA, reflétant ainsi la rigueur de ce référentiel dans l'évaluation de la capacité d'une IA à comprendre et à répondre à des questions du monde réel.

Unissant divers domaines de l'IA

L'initiative OpenEQA fait le pont entre plusieurs domaines de pointe en intelligence artificielle, y compris la vision par ordinateur, le traitement du langage naturel, la représentation des connaissances et la robotique. L'objectif ultime est de créer des agents artificiels capables de percevoir et d’interagir avec leur environnement, de dialoguer naturellement avec les humains et d'exploiter des connaissances pour améliorer la vie quotidienne.

Les chercheurs envisagent deux principales applications pour cette "intelligence incarnée". D'abord, des assistants IA intégrés dans des lunettes ou casques de réalité augmentée pourraient utiliser des données vidéo et des capteurs pour offrir aux utilisateurs une mémoire photographique, répondant à des questions telles que : "Où ai-je laissé mes clés ?" Ensuite, des robots mobiles pourraient naviguer de manière autonome dans des environnements pour collecter des informations, comme déterminer : "Est-ce qu'il me reste du café ?"

Établir une norme d'évaluation rigoureuse

Lors du développement de l'ensemble de données OpenEQA, les chercheurs de Meta ont commencé par collecter des séquences vidéo et des scans 3D d'environnements réels. Ils ont ensuite invité des personnes à formuler des questions qu'elles poseraient à un assistant IA ayant accès à ces données visuelles.

L'ensemble de données comprend 1 636 questions qui évaluent une large gamme de compétences en perception et en raisonnement. Par exemple, répondre à "Combien de chaises y a-t-il autour de la table à manger ?" nécessite que l'IA identifie les objets, comprenne le terme spatial "autour" et compte les éléments pertinents. D'autres questions nécessitent une compréhension fondamentale des usages et des attributs des objets.

Pour améliorer l'exactitude, chaque question propose plusieurs réponses générées par des humains, reconnaissant ainsi que des réponses diverses sont possibles. Pour évaluer la performance de l'IA, les chercheurs ont utilisé des modèles de langage avancés pour mesurer automatiquement la similarité entre les réponses générées par l'IA et celles des humains.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles