La quête de l'intelligence générale artificielle (AGI)—des systèmes d'IA dotés de capacités équivalentes à celles des humains dans des tâches variées—éveille des débats passionnés parmi les scientifiques. Les opinions divergent, certains experts affirmant que l'AGI est encore loin, tandis que d'autres prédisent son apparition dans la prochaine décennie. Notamment, certains affirment que des "étincelles d'AGI" sont déjà visibles dans les modèles de langage à grande échelle (LLMs).
Pour éclaircir ce débat, une équipe de Google DeepMind, dirigée par le scientifique en chef de l'AGI, Shane Legg, a introduit un nouveau cadre destiné à catégoriser les capacités et comportements des systèmes d'AGI et de leurs précurseurs.
Définir l'AGI
L'un des principaux défis dans le développement de l'AGI est d'établir une définition claire. Les chercheurs de DeepMind évaluent neuf définitions, y compris le test de Turing, le test du café, des évaluations de la conscience, des critères économiques et des benchmarks liés aux tâches. Ils soulignent les limites de chaque définition dans la capture complète de l'essence de l'AGI.
Par exemple, bien que les LLMs puissent passer le test de Turing, leur capacité à générer un texte convaincant ne les qualifie pas d'AGI, comme le montre les limitations actuelles de ces modèles. De plus, attribuer la conscience aux machines demeure un sujet ambigu. Échouer à des tests spécifiques, comme préparer du café dans une cuisine inconnue, indique un statut non-AGI, mais réussir des tâches ne le confirme pas.
Pour offrir une compréhension approfondie de l'AGI, les chercheurs proposent six critères d'évaluation de l'intelligence artificielle :
1. Centré sur les capacités : Les mesures de l'AGI doivent privilégier les capacités plutôt que des qualités floues comme la compréhension humaine ou la conscience.
2. Généralité et performance : Les évaluations doivent considérer à la fois la gamme de tâches qu'un IA peut effectuer et son niveau de performance.
3. Exigences cognitives : L'AGI doit inclure des tâches cognitives et métacognitives, sans nécessiter d'incarnation physique.
4. Potentiel des tâches : La capacité à entreprendre des tâches de niveau AGI est suffisante, même si le système n'est pas actuellement déployable. Exiger un déploiement introduit des défis non techniques, y compris des implications éthiques et juridiques.
5. Validité écologique : Les métriques d'AGI doivent mettre l'accent sur des tâches du monde réel ayant de la valeur pour la société.
6. Modèle de cheminement : L'AGI n'est pas un point d'arrivée unique ; elle représente plutôt un continuum avec divers niveaux d'intelligence.
Le Spectre de l'Intelligence
DeepMind a créé une matrice évaluant la "performance" et la "généralité" sur cinq niveaux, allant de l'absence d'IA à une AGI surhumaine. La performance reflète la manière dont les capacités d'une IA se comparent aux compétences humaines, tandis que la généralité mesure la diversité des tâches qu'une IA peut gérer efficacement.
Cette matrice distingue entre l'IA étroite et l'IA générale. Par exemple, des systèmes d'IA étroite surhumains comme AlphaZero et AlphaFold excellent dans des tâches spécifiques. Des modèles de langage avancés, tels que ChatGPT, Bard et Llama 2, sont classés dans la catégorie "Compétent" (Niveau 2) pour certaines tâches comme la rédaction d'essais, mais restent "Émergents" (Niveau 1) dans des domaines comme les mathématiques et le raisonnement.
Les chercheurs affirment que les modèles de langage avancés actuels seraient classés comme Niveau 1 d'IA Générale ('AGI Émergente') tant qu'ils ne démontrent pas de meilleures performances sur un éventail plus large de tâches.
Ils mettent également en garde que les classifications théoriques peuvent ne pas s'aligner avec la performance dans le monde réel. Par exemple, les systèmes de génération d'images à partir de texte pourraient créer des images de haute qualité par rapport aux artistes humains, mais pourraient encore manquer le statut de "virtuose" en raison d'inexactitudes occasionnelles.
DeepMind plaide pour un référentiel AGI englobant une gamme de tâches cognitives et métacognitives, y compris des compétences linguistiques, des capacités de raisonnement et de créativité. Ils reconnaissent le défi de définir chaque tâche envisageable par une intelligence suffisamment générale, proposant que le référentiel AGI soit un cadre dynamique, s'adaptant aux nouvelles tâches au fur et à mesure qu'elles émergent.
Autonomie et Évaluation des Risques
DeepMind introduit une matrice pour évaluer l'autonomie et les risques associés aux systèmes d'IA. Cela va du Niveau 0, où les humains exécutent toutes les tâches, au Niveau 5, indiquant une autonomie complète, en intégrant des niveaux où les responsabilités sont partagées entre humains et IA.
Les risques posés par les systèmes d'IA évoluent avec l'autonomie croissante. À des niveaux inférieurs, les risques peuvent inclure le délaissement de certaines compétences chez les travailleurs et des perturbations dans les industries. Des niveaux d'autonomie plus élevés soulèvent potentiellement des préoccupations sérieuses telles que la manipulation ciblée d'individus par du contenu personnalisé et une désalignement éthique chez des agents entièrement autonomes.
Bien que le cadre de DeepMind puisse avoir ses limites et ses critiques, il constitue un guide significatif pour mesurer les progrès vers le développement de systèmes d'IA qui pourraient éventuellement surpasser les capacités humaines.