Un nouvel indice d'intelligence artificielle, GAIA, a été conçu pour évaluer si des chatbots comme ChatGPT peuvent démontrer un raisonnement et des compétences semblables à ceux des humains dans des tâches quotidiennes. Développé par une équipe de Meta, Hugging Face, AutoGPT et GenAI, GAIA pose des questions réelles nécessitant des compétences fondamentales telles que le raisonnement, la gestion de multiples modalités, la navigation sur le web et la maîtrise d’outils, selon le article des chercheurs publié sur arXiv.
Les chercheurs affirment que les questions de GAIA sont "conceptuellement simples pour les humains, mais difficiles pour la plupart des IA avancées." Parmi les tests, les participants humains ont obtenu un score impressionnant de 92 %, tandis que GPT-4 avec plugins n'a atteint que 15 %. "Cet écart de performance notable contraste avec la tendance récente des grands modèles de langage [LLMs] à surpasser les humains dans des tâches spécialisées comme le droit ou la chimie," déclarent les auteurs.
GAIA se concentre sur la compétence humaine, et non l'expertise. Contrairement aux benchmarks traditionnels, qui mettent l'accent sur des tâches difficiles pour les humains, les chercheurs prônent l'importance des tâches qui révèlent la capacité d'une IA à égaler la robustesse d'un humain moyen. L'équipe GAIA a élaboré 466 questions réelles avec des réponses claires. Parmi celles-ci, 300 restent non publiées pour contribuer à un classement public de GAIA, tandis que 166 questions et réponses sont disponibles en tant qu'ensemble de développement.
"Résoudre GAIA représenterait une étape marquante dans la recherche en IA," déclare Grégoire Mialon, auteur principal de Meta AI. "Nous croyons que surmonter les défis présentés par GAIA est une étape clé vers la prochaine génération de systèmes d'IA."
L'écart de performance entre l'humain et l'IA est actuellement marqué par le score le plus élevé de GAIA, détenu par GPT-4 avec des plugins sélectionnés manuellement, atteignant 30 % de précision. Les créateurs de l'indice suggèrent qu'une IA capable de résoudre GAIA pourrait être considérée comme possédant une intelligence générale artificielle (AGI) dans un délai raisonnable. "L'article critique la tendance à tester les IA avec des examens complexes de mathématiques, de sciences et de droit, en notant que les tâches qui posent des défis aux humains ne sont pas nécessairement difficiles pour les systèmes modernes," expliquent les auteurs.
GAIA met l'accent sur des questions pratiques telles que "Quelle ville a accueilli le Concours Eurovision de la chanson 2022 selon le site officiel ?" et "Combien d'images sont répertoriées dans le dernier article Wikipédia sur Lego en 2022 ?" Les chercheurs soutiennent que le développement de l'AGI dépend de la capacité d'un système à démontrer une robustesse similaire à celle d'un humain moyen sur de telles questions courantes.
L'introduction de GAIA marque un changement significatif dans la recherche en IA, avec des effets potentiellement vastes. En soulignant la compétence humaine dans des tâches quotidiennes plutôt que simple connaissance spécialisée, GAIA repousse les limites des benchmarks actuels en IA. Si les futurs systèmes d'IA peuvent démontrer bon sens, adaptabilité et raisonnement, comme mesuré par GAIA, cela pourrait indiquer qu'ils peuvent atteindre une AGI pratique, menant à de meilleurs assistants, services et produits en IA.
Cependant, les chercheurs préviennent que les chatbots d'aujourd'hui rencontrent encore d'importants défis pour résoudre GAIA, reflétant des limitations existantes en matière de raisonnement, d'utilisation d'outils et de gestion de scénarios diversifiés du monde réel. À mesure que les chercheurs s'attaquent au défi GAIA, leurs résultats éclaireront les progrès vers la création de systèmes d'IA plus compétents, polyvalents et dignes de confiance. De plus, des benchmarks comme GAIA incitent à réfléchir sur la manière dont l'IA peut être façonnée pour donner la priorité à des valeurs humaines telles que l'empathie, la créativité et la prise de décisions éthiques.
Pour ceux qui s'y intéressent, le classement public de l'indice GAIA fournit des informations sur le modèle de langage de nouvelle génération qui excelle actuellement dans cette évaluation.