Recherche Google : Pourquoi les modèles linguistiques ont du mal à autocorriger leurs compétences en raisonnement

Home Actualités IA Recherche Google : Pourquoi les modèles linguistiques ont du mal à autocorriger leurs compétences en raisonnement

Updated on octobre 25 2024

Les grands modèles de langage (LLMs) dépendent fondamentalement de la qualité et de l'étendue des données utilisées pour leur formation. Les chercheurs ont longtemps cherché des méthodes efficaces pour permettre à ces modèles de s'auto-corriger lors de la génération de leurs résultats. Des initiatives initiales, comme l'approche multi-agents développée au MIT, ont montré des promesses encourageantes dans ce domaine. Cependant, des découvertes récentes de Google DeepMind révèlent que les LLMs peuvent en réalité subir des déclins de performance lorsqu'ils tentent de s'auto-corriger de manière autonome.

Dans leur article intitulé « Les grands modèles de langage ne peuvent pas encore s'auto-corriger », les chercheurs de Google DeepMind ont mené des expériences approfondies pour éclaircir les limitations des capacités d'auto-correction des LLMs. Leur analyse a mis en lumière un défi majeur : lorsque ces modèles tentent de rectifier leurs erreurs uniquement sur la base de leur jugement interne, sans aucune orientation externe, ils ont tendance à échouer. C'est un changement notable par rapport aux recherches précédentes, qui indiquaient que l'auto-correction intrinsèque pouvait être efficace lorsqu'elle était guidée par des « oracles », c'est-à-dire des étiquettes correctes prédéterminées. L'absence de ces oracles entraîne un manque d'amélioration de la précision des modèles.

L'équipe a souligné que les LLMs doivent posséder des capacités d'auto-correction, d'autant plus que le retour d'information externe est souvent « indisponible dans de nombreuses applications réelles ».

Défis de l'auto-correction

Les hallucinations, qui sont des sorties fallacieuses générées par les LLMs, représentent l'un des nombreux défis auxquels ces modèles sont confrontés. Bien qu'aucun système ne soit exempt de telles inexactitudes, des stratégies d'atténuation existent, telles que la méthode d'arbre AST proposée par Gorilla et l'approche Multi-Agent explorée par des chercheurs du MIT.

Imaginez un scénario où un chatbot de service client basé sur un LLM réalise qu'il a donné une réponse incorrecte et corrige l'erreur de manière autonome. La communauté de recherche en IA se concentre de plus en plus sur la réalisation de cet objectif. Les chercheurs de Google ont envisagé ce but, mais ont noté que de nombreuses améliorations attribuées à l'auto-correction sont probablement le résultat de prompts initiaux mal formulés, masqués par un retour d'information bien conçu. « Dans de tels cas, » ont-ils déclaré, « intégrer le retour d'information dans l'instruction initiale ou affiner le prompt initial pourrait donner de meilleurs résultats et réduire les coûts. »

Cependant, cet ajustement ne répond pas à l'aspiration d'habiliter les LLMs à s'auto-corriger entièrement de manière autonome. Par exemple, demander à un modèle de « revoir votre réponse précédente et identifier les erreurs » peut aboutir à des résultats incorrects, même si la réponse initiale était correcte.

Explorer la cohérence des résultats

La recherche a impliqué divers modèles, y compris ChatGPT d'OpenAI, dans des tests de référence axés sur la génération de code. Des systèmes basés sur des agents ont ensuite critiqué ces réponses pour détecter des erreurs afin de faciliter l'auto-correction. Ce processus a révélé qu'aucun modèle d'IA unique ne produisait systématiquement des sorties identiques, mais plusieurs LLMs pouvaient collectivement parvenir à un accord sur une réponse cohérente.

La recherche met l'accent sur le concept de cohérence interne, soutenant que les améliorations observées ne proviennent pas de l'auto-correction, mais d'une cohérence accrue entre les sorties des modèles. La distinction réside dans la mesure où le mécanisme de vote est basé sur des aperçus guidés par le modèle ou de simples comptages de réponses. Par conséquent, pour catégoriser quelque chose comme une auto-correction, il est essentiel d'exclure les effets de sélection qui proviennent de la génération de multiples sorties.

La voie vers une auto-correction efficace

La question demeure : quand l'auto-correction véritable des LLMs deviendra-t-elle réalisable ? Google DeepMind suggère que les capacités d'auto-correction pourraient s'avérer particulièrement bénéfiques dans les applications nécessitant une génération de réponse plus sécurisée. L'étude pointe vers des modèles intégrant des étiquettes de vérité, comme le système d'IA constitutionnelle de Claude, qui pourrait aider les LLMs à éviter des réponses incorrectes lors du processus de raisonnement.

À l'heure actuelle, les LLMs manquent de la capacité de s'auto-corriger indépendamment de tout apport externe. Les chercheurs estiment qu'il est trop optimiste de penser que ces modèles développeront un jour des capacités d'auto-correction autonomes. Au lieu de cela, ils plaident pour des améliorations des modèles existants afin de mieux les préparer à une éventuelle auto-correction.

Pour faire avancer ce domaine important, ils invitent les chercheurs à adopter une vision critique de l'auto-correction, reconnaissant son potentiel tout en comprenant ses limitations. Cette approche équilibrée positionnera mieux les LLMs pour des améliorations en termes de précision et de fiabilité, guidant leur évolution en tant qu'outils précis et fiables dans diverses applications.

Les défis de la monetisation de l'IA générative : comprendre les obstacles

Les États-Unis renforcent les restrictions à l'exportation de puces AI vers la Chine : Nouvelles mesures pour contrôler le transfert de technologie.

Most people like

GPT Chinese Station

19.9K

Découvrez une plateforme IA polyvalente conçue pour la rédaction, la traduction et diverses autres tâches. Cet outil puissant améliore la créativité et l'efficacité, en faisant une ressource essentielle pour les créateurs de contenu, les marketeurs et les entreprises. Libérez le potentiel de l'IA pour transformer votre expérience d'écriture dès aujourd'hui !

Chatbot IA General Writing

Dittin AI

19.1K

Découvrez notre plateforme innovante de discussions avec des personnages AI, conçue pour des interactions engageantes et sécurisées. Contrairement à d'autres plateformes, nous privilégions un environnement adapté à toute la famille, garantissant que toutes les discussions restent exemptes de contenu NSFW. Rejoignez-nous pour une expérience unique où vous pouvez interagir avec des personnages dans un espace protégé, idéal pour les utilisateurs de tous âges !

Discussion avec un personnage IA AI Chatbot

WeShop

173.6K

Libérez le potentiel de l'IA avec notre plateforme innovante conçue pour créer des images époustouflantes et de haute qualité. Que vous soyez designer, marketer ou simplement en quête de visuels captivants, notre technologie alimentée par l'IA vous permet de produire des images de niveau professionnel en toute simplicité. Découvrez comment vous pouvez élever vos projets en un rien de temps !

Studio IA AI Advertising Assistant

Poly AI

2.3M

Jeux de Rôle AI : Engagez-vous dans des Conversations Sûres, Illimitées et Gratuites ! Explorez l'univers du jeu de rôle alimenté par l'IA, où vous pouvez vous plonger dans des interactions sans limites et divertissantes sans aucune préoccupation de sécurité. Notre plateforme garantit une expérience sûre et agréable, vous permettant de libérer votre créativité et de vous connecter avec vos personnages ou intrigues préférés. Rejoignez-nous dès maintenant pour une aventure inoubliable dans le jeu de rôle AI !

Chatbot IA AI Chatbot

Find AI tools in YBX