Alors que les grands modèles de langage (LLMs) deviennent de plus en plus capables de gérer des tâches complexes, ils peinent souvent à fournir des réponses précises du premier coup. Cela a suscité un intérêt croissant pour l'amélioration de leur capacité à identifier et corriger leurs erreurs, un processus connu sous le nom de "auto-correction". Cependant, les méthodes d'auto-correction existantes sont limitées et échouent fréquemment à répondre aux besoins du monde réel.
Dans un article révolutionnaire, des chercheurs de Google DeepMind présentent une approche novatrice nommée Auto-Correction par Apprentissage par Renforcement (SCoRe), qui renforce considérablement les capacités d'auto-correction des LLMs en utilisant uniquement des données auto-générées. SCoRe est destiné à améliorer la fiabilité et la robustesse des LLMs, ouvrant de nouvelles voies pour perfectionner leurs compétences en raisonnement et en résolution de problèmes.
"L'auto-correction améliore considérablement la pensée humaine", déclare Aviral Kumar, chercheur chez Google DeepMind. "Les humains prennent souvent le temps de réfléchir à plusieurs idées et de rectifier leurs erreurs pour finalement parvenir à la solution correcte. Nous souhaitons que les LLMs fassent de même."
Un LLM idéal, doté de solides capacités d'auto-correction, devrait être capable d'évaluer et de peaufiner ses propres réponses jusqu'à atteindre la bonne réponse. Cela est crucial, car même si les LLMs possèdent souvent les connaissances nécessaires pour résoudre des problèmes, ils peuvent avoir du mal à les utiliser efficacement dans leurs réponses initiales.
"Du point de vue fondamental de l'apprentissage automatique, nous ne nous attendons pas à ce que les LLMs résolvent des problèmes difficiles en une seule tentative", explique Kumar. "Par conséquent, nous souhaitons que les LLMs investissent davantage d'efforts computationnels dans la réflexion et l'auto-correction pour réussir face à des problèmes difficiles."
Les tentatives passées pour activer l'auto-correction dans les LLMs ont reposé sur l'ingénierie des invites ou le fine-tuning des modèles, nécessitant généralement un retour d'information externe ou des conseils d'un "oracle". Ces techniques négligent souvent les capacités intrinsèques d'auto-correction du modèle. Les méthodes de fine-tuning supervisé (SFT), par exemple, reposent largement sur le retour d'information d'annotateurs humains ou de modèles plus performants, limitant leur applicabilité dans des scénarios réels. De plus, les méthodes SFT nécessitent parfois plusieurs modèles pendant l'inférence pour vérification, compliquant le déploiement.
Les recherches de DeepMind montrent que, même si le SFT peut améliorer les sorties initiales d'un modèle, il est insuffisant lorsque le modèle doit réviser ses réponses sur plusieurs étapes, une exigence courante pour des problèmes complexes. "À la fin de l'entraînement, un modèle peut apprendre à rectifier les erreurs du modèle de base mais peut encore manquer de la capacité à détecter ses propres erreurs", note Kumar.
Un autre inconvénient du SFT est le risque de comportements indésirables, où le modèle apprend à donner la meilleure réponse du premier coup sans l'ajuster, même si elle est incorrecte. "Les modèles formés par SFT ont tendance à adopter une stratégie ‘directe’ plutôt que d'apprendre le processus d'auto-correction", ajoute-t-il.
Progrès grâce à l'Apprentissage par Renforcement
Pour surmonter ces limites, les chercheurs de DeepMind se sont tournés vers l'apprentissage par renforcement (RL). "Les LLMs actuels n'effectuent pas efficacement l'auto-correction", déclare Kumar. "Ils ne sont pas entraînés à réfléchir sur leurs erreurs passées; ils visent plutôt à produire la meilleure réponse aux questions. Ainsi, nous avons développé des méthodes d'auto-correction."
SCoRe apprend à un seul modèle à générer des réponses et à corriger ses erreurs de manière indépendante, sans nécessiter de retour extérieur. Cela se fait par un entraînement basé uniquement sur des données auto-générées, éliminant ainsi la dépendance à des informations externes.
Les approches RL antérieures pour l'auto-correction s'appuyaient principalement sur des interactions à un tour, entraînant un effondrement comportemental, où le modèle négligeait les commandes d'auto-correction en faveur d'une réponse directe basée sur la mémoire. "Les méthodes RL naïves ont conduit à des modèles ignorant l'invite d'auto-correction, se concentrant uniquement sur la production d'une réponse zéro-shot", affirme Kumar.
Pour contrer cet effondrement comportemental, SCoRe utilise un processus d'entraînement en deux étapes renforcé par des techniques de régularisation. La première étape optimise les performances de correction tout en veillant à ce que les réponses initiales du modèle soient alignées avec les sorties du modèle de base. La seconde étape utilise le RL multi-tours pour améliorer les performances lors des tentatives initiales et suivantes, intégrant un système de récompense qui motive le modèle à améliorer ses réponses au fil des itérations.
"Cette approche duale garantit que le modèle n'apprend pas uniquement à fournir la meilleure première réponse avec des ajustements minimes", expliquent les chercheurs. "Dans l'ensemble, SCoRe exploite efficacement les connaissances du modèle de base pour une auto-correction positive."
SCoRe en Action
Les chercheurs de DeepMind ont évalué SCoRe par rapport aux méthodes d'auto-correction existantes en utilisant des données auto-générées, mettant l'accent sur des tâches de mathématiques et de codage avec des références telles que MATH, MBPP et HumanEval.
SCoRe a montré des améliorations significatives des capacités d'auto-correction des modèles Gemini 1.0 Pro et 1.5 Flash, réalisant un gain absolu de 15,6 % sur le benchmark MATH et un gain de 9,1 % sur HumanEval par rapport au modèle de base, surpassant d'autres techniques d'auto-correction.
L'amélioration la plus marquante a été la capacité du modèle à affiner ses erreurs de la première à la deuxième tentative tout en minimisant les altérations incorrectes pour corriger les réponses. SCoRe s'est également avéré très efficace lorsqu'il est associé à des stratégies d'échelle en temps d'inférence, améliorant davantage les performances en répartissant le même budget d'inférence sur plusieurs rounds de correction.
Bien que la recherche se concentre principalement sur les tâches de codage et de raisonnement, l'équipe est convaincue que SCoRe peut avoir des applications plus larges. "Imaginez des modèles capables de reconnaître des sorties potentiellement dangereuses et de les améliorer de manière autonome avant qu'elles ne soient visibles par l'utilisateur", suggère Kumar.
Ce travail souligne l'importance d'enseigner aux LLMs comment raisonner et s'auto-corriger, plutôt que de simplement mapper des entrées à des sorties, ouvrant la voie à des systèmes d'IA plus performants et plus fiables.