L'un des termes d'argot les plus fascinants et pratiques issus de Reddit est "ELI5", qui signifie "Explique-le comme si j'avais 5 ans." Ce terme incite les experts à simplifier des idées complexes, comme s'ils s'adressaient à un enfant de cinq ans, rendant ainsi les concepts compliqués accessibles à tous, y compris à ceux sans formation formelle.
Cette approche directe est également bénéfique pour les modèles d'IA, notamment pour résoudre le problème de la "lisibilité", qui concerne la compréhension des mécanismes décisionnels des systèmes d'IA. Aujourd'hui, les chercheurs d'OpenAI présentent une avancée significative dans ce domaine avec une nouvelle publication scientifique intitulée “Les jeux de Prouveur-Vérificateur améliorent la lisibilité des sorties de LLM,” disponible sur le site de l'entreprise et sur arXiv.org. Leur travail explore un nouvel algorithme qui permet aux grands modèles de langage (LLMs), tels que GPT-4, d'exprimer leur raisonnement de manière plus claire.
Établir la confiance dans les systèmes d'IA est crucial, surtout dans des domaines sensibles comme la santé, le droit, les militaires et les infrastructures critiques, où des inexactitudes peuvent entraîner des conséquences dangereuses. Même des entreprises en dehors de ces secteurs peuvent hésiter à adopter l'IA à cause de la peur d'erreurs. Les travaux d'OpenAI visent à offrir un cadre qui permet aux modèles d'IA d'expliquer clairement leurs processus de décision, renforçant ainsi la confiance des utilisateurs.
Le chercheur d'OpenAI, Jan Hendrik Kirchner, a déclaré : « C'est une recherche récente que nous venons de finaliser, et nous sommes impatients de partager ces connaissances avec la communauté pour sensibiliser au problème de lisibilité et encourager la collaboration en vue de sa résolution. »
Comprendre le Jeu de Prouveur-Vérificateur
L'algorithme développé par OpenAI repose sur le concept de "Jeu de Prouveur-Vérificateur", détaillé pour la première fois par des chercheurs de l'Université de Toronto et du Vector Institute for Artificial Intelligence en 2021. Ce jeu implique deux modèles d'IA : un "prouveur" plus avancé et un "vérificateur" moins sophistiqué. Le prouveur tente de convaincre le vérificateur de sa réponse, indépendamment de sa justesse, tandis que le vérificateur cherche à identifier la réponse correcte.
L'objectif est d'inciter les modèles d'IA à "montrer leur travail" et à expliquer leur raisonnement aux utilisateurs humains, favorisant ainsi des approches de résolution de problèmes vérifiables. « À mesure que les modèles de langage sont de plus en plus déployés dans des domaines complexes et critiques, assurer la fiabilité de leurs résultats est essentiel. La méthode du jeu de Prouveur-Vérificateur améliore la clarté et la vérifiabilité, éléments clés de la confiance », a souligné Yining Chen, chercheur chez OpenAI.
Mise en œuvre du Jeu de Prouveur-Vérificateur
OpenAI a utilisé deux modèles GPT-4 finement réglés pour participer à des séries de rounds où ils résolvaient des problèmes mathématiques de niveau élémentaire. Un élément clé de leur méthodologie consistait à faire alterner le comportement du modèle prouveur entre "utile" (cherchant à donner la bonne réponse) et "trompeur" (tentant de dérouter le vérificateur). Le modèle vérificateur, inconscient des intentions du prouveur, évaluait les réponses uniquement en fonction de son entraînement.
Après chaque round de jeu, les deux modèles étaient réentraînés en fonction de leurs performances précédentes, améliorant leur capacité à évaluer l'exactitude et à formuler des explications de manière accessible. Des contractuels humains ont été chargés d'évaluer la lisibilité des réponses du modèle prouveur.
Après plusieurs rounds, les chercheurs ont constaté que le modèle vérificateur améliorait sa résistance aux techniques de persuasion du prouveur trompeur, tandis que le modèle prouveur devenait plus efficace pour expliquer son raisonnement. L'article précise : « Les solutions trompeuses, plus difficiles à détecter pour des vérificateurs moins sophistiqués, sont aussi plus compliquées pour les humains, alors que les solutions utiles, plus lisibles pour les petits vérificateurs, sont également plus compréhensibles pour les humains. »
L'algorithme résultant de ces expériences optimise les LLMs pour une meilleure exactitude et clarté, ce qu'OpenAI pense faciliter le développement de systèmes d'IA capables de fournir non seulement des résultats exacts, mais aussi transparents, renforçant ainsi la sécurité et la confiance dans des applications réelles. Comme l'a souligné Chen, cette méthode a le potentiel d'aligner des systèmes d'IA plus avancés avec les évaluateurs humains, une étape cruciale à mesure que les modèles approchent ou dépassent l'intelligence humaine. Kirchner a ajouté : « À ce stade, il peut devenir de plus en plus difficile pour les humains de juger de manière fiable l'exactitude du contenu généré par l'IA. »