Les grands modèles de langage (LLMs) dépendent fondamentalement de la qualité et de l'étendue des données utilisées pour leur formation. Les chercheurs ont longtemps cherché des méthodes efficaces pour permettre à ces modèles de s'auto-corriger lors de la génération de leurs résultats. Des initiatives initiales, comme l'approche multi-agents développée au MIT, ont montré des promesses encourageantes dans ce domaine. Cependant, des découvertes récentes de Google DeepMind révèlent que les LLMs peuvent en réalité subir des déclins de performance lorsqu'ils tentent de s'auto-corriger de manière autonome.
Dans leur article intitulé « Les grands modèles de langage ne peuvent pas encore s'auto-corriger », les chercheurs de Google DeepMind ont mené des expériences approfondies pour éclaircir les limitations des capacités d'auto-correction des LLMs. Leur analyse a mis en lumière un défi majeur : lorsque ces modèles tentent de rectifier leurs erreurs uniquement sur la base de leur jugement interne, sans aucune orientation externe, ils ont tendance à échouer. C'est un changement notable par rapport aux recherches précédentes, qui indiquaient que l'auto-correction intrinsèque pouvait être efficace lorsqu'elle était guidée par des « oracles », c'est-à-dire des étiquettes correctes prédéterminées. L'absence de ces oracles entraîne un manque d'amélioration de la précision des modèles.
L'équipe a souligné que les LLMs doivent posséder des capacités d'auto-correction, d'autant plus que le retour d'information externe est souvent « indisponible dans de nombreuses applications réelles ».
Défis de l'auto-correction
Les hallucinations, qui sont des sorties fallacieuses générées par les LLMs, représentent l'un des nombreux défis auxquels ces modèles sont confrontés. Bien qu'aucun système ne soit exempt de telles inexactitudes, des stratégies d'atténuation existent, telles que la méthode d'arbre AST proposée par Gorilla et l'approche Multi-Agent explorée par des chercheurs du MIT.
Imaginez un scénario où un chatbot de service client basé sur un LLM réalise qu'il a donné une réponse incorrecte et corrige l'erreur de manière autonome. La communauté de recherche en IA se concentre de plus en plus sur la réalisation de cet objectif. Les chercheurs de Google ont envisagé ce but, mais ont noté que de nombreuses améliorations attribuées à l'auto-correction sont probablement le résultat de prompts initiaux mal formulés, masqués par un retour d'information bien conçu. « Dans de tels cas, » ont-ils déclaré, « intégrer le retour d'information dans l'instruction initiale ou affiner le prompt initial pourrait donner de meilleurs résultats et réduire les coûts. »
Cependant, cet ajustement ne répond pas à l'aspiration d'habiliter les LLMs à s'auto-corriger entièrement de manière autonome. Par exemple, demander à un modèle de « revoir votre réponse précédente et identifier les erreurs » peut aboutir à des résultats incorrects, même si la réponse initiale était correcte.
Explorer la cohérence des résultats
La recherche a impliqué divers modèles, y compris ChatGPT d'OpenAI, dans des tests de référence axés sur la génération de code. Des systèmes basés sur des agents ont ensuite critiqué ces réponses pour détecter des erreurs afin de faciliter l'auto-correction. Ce processus a révélé qu'aucun modèle d'IA unique ne produisait systématiquement des sorties identiques, mais plusieurs LLMs pouvaient collectivement parvenir à un accord sur une réponse cohérente.
La recherche met l'accent sur le concept de cohérence interne, soutenant que les améliorations observées ne proviennent pas de l'auto-correction, mais d'une cohérence accrue entre les sorties des modèles. La distinction réside dans la mesure où le mécanisme de vote est basé sur des aperçus guidés par le modèle ou de simples comptages de réponses. Par conséquent, pour catégoriser quelque chose comme une auto-correction, il est essentiel d'exclure les effets de sélection qui proviennent de la génération de multiples sorties.
La voie vers une auto-correction efficace
La question demeure : quand l'auto-correction véritable des LLMs deviendra-t-elle réalisable ? Google DeepMind suggère que les capacités d'auto-correction pourraient s'avérer particulièrement bénéfiques dans les applications nécessitant une génération de réponse plus sécurisée. L'étude pointe vers des modèles intégrant des étiquettes de vérité, comme le système d'IA constitutionnelle de Claude, qui pourrait aider les LLMs à éviter des réponses incorrectes lors du processus de raisonnement.
À l'heure actuelle, les LLMs manquent de la capacité de s'auto-corriger indépendamment de tout apport externe. Les chercheurs estiment qu'il est trop optimiste de penser que ces modèles développeront un jour des capacités d'auto-correction autonomes. Au lieu de cela, ils plaident pour des améliorations des modèles existants afin de mieux les préparer à une éventuelle auto-correction.
Pour faire avancer ce domaine important, ils invitent les chercheurs à adopter une vision critique de l'auto-correction, reconnaissant son potentiel tout en comprenant ses limitations. Cette approche équilibrée positionnera mieux les LLMs pour des améliorations en termes de précision et de fiabilité, guidant leur évolution en tant qu'outils précis et fiables dans diverses applications.