GenRM de DeepMind améliore la précision des LLM grâce à l'auto-vérification des résultats.

Les grands modèles de langage (LLMs) rencontrent fréquemment des erreurs factuelles et logiques, notamment lors de tâches de raisonnement complexe. Pour atténuer ce problème, les chercheurs mettent souvent en œuvre des vérificateurs ou des modèles de récompense pour évaluer et sélectionner les réponses les plus précises parmi un ensemble de réponses générées par les LLMs.

Un article récent rédigé par des chercheurs de Google DeepMind, de l'Université de Toronto, de Mila et de l'Université de Californie à Los Angeles présente GenRM, une approche novatrice qui exploite les capacités génératives des LLMs pour améliorer les processus de vérification. GenRM constitue un outil précieux pour les applications basées sur les LLMs, là où les méthodes de vérification traditionnelles s'avèrent insuffisantes.

Limitations des vérificateurs et des modèles de récompense classiques

Une méthode courante pour améliorer la précision des LLMs consiste à générer plusieurs réponses candidates et à utiliser un composant distinct pour identifier la meilleure. Cela nécessite un vérificateur ou un modèle de récompense fiable. En général, les vérificateurs basés sur les LLMs sont formés en tant que modèles de récompense discriminative (RMs) qui attribuent des scores numériques pour évaluer si les solutions candidates sont correctes ou incorrectes. Cependant, ces RMs ne tirent pas pleinement parti des points forts intrinsèques des LLMs en matière de génération et de traitement des réponses.

« Bien que les modèles de récompense classiques (RMs) soient entraînés par l'ajustement des LLMs, ils n'exploitent pas les capacités de génération de texte pour lesquelles les LLMs sont fondamentalement conçus », explique Rishabh Agarwal, co-auteur de l'article et chercheur senior chez DeepMind.

Une autre technique courante, LLM-en-juges, utilise des méthodes de demande avancées pour évaluer les réponses. Bien que cette approche offre une flexibilité, elle manque des capacités acquises par les modèles de récompense lors de l'entraînement.

Modèles de récompense générative

Le GenRM de DeepMind propose une alternative en formant des vérificateurs par la prédiction du prochain token, exploitant ainsi les forces génératives des LLMs. « Former des RMs via la prédiction du prochain token leur permet de tirer parti des nombreux avantages des LLMs génératifs », souligne Agarwal. « Nous avons démontré que le même modèle peut vérifier et générer des solutions, en utilisant un raisonnement en chaîne avant la vérification pour améliorer la précision. »

Dans GenRM, la décision de vérification est exprimée sous la forme d'un token. Par exemple, pour créer un score pour une solution, le vérificateur utilise une question comme « La réponse est-elle correcte ? » et représente le score par la probabilité d'un token textuel (par exemple, « Oui » ou « Non ») en fonction du contexte.

Étant donné que la vérification nécessite souvent un raisonnement complexe, les vérificateurs génératifs peuvent grandement bénéficier de techniques de demande avancées telles que le raisonnement en chaîne (CoT), qui incite le modèle à exposer son processus de pensée avant d'arriver à une réponse. « Nous pouvons générer des étapes de raisonnement intermédiaires ou des critiques (CoT) avant de décider de la véracité de la solution, ce qui permet de découvrir des erreurs subtiles parfois négligées par des vérificateurs directs », affirment les chercheurs.

Les justifications CoT utilisées pour former le modèle GenRM peuvent provenir de l'apport humain ou d'un autre LLM. Lors de l'inférence, GenRM génère d'abord une justification CoT puis utilise la probabilité du token « Oui » pour déterminer un score de validité.

Pour améliorer davantage la précision des vérificateurs CoT, les chercheurs ont utilisé le vote majoritaire. Ils ont échantillonné plusieurs chaînes CoT et calculé le score moyen « Oui » à travers tous les échantillons, optimisant ainsi efficacement le calcul en temps de test.

« GenRM peut être conceptualisé comme une fusion de LLM-en-juges avec des vérificateurs classiques ; il représente un LLM-en-juges formé sur des données spécifiques de vérification », explique Agarwal. « Ainsi, GenRM est adapté à tout domaine où les LLMs prompts standards sont insuffisants. »

GenRM en Action

Pour évaluer l’efficacité de GenRM, les chercheurs de DeepMind l’ont testé sur diverses tâches de raisonnement, incluant la concaténation de lettres finales, le tri de mots et des problèmes de mathématiques utilisant des mots. Ils ont comparé GenRM avec des méthodes standards, y compris les modèles de récompense discriminative, LLM-en-juges et la « cohérence interne », où le modèle génère plusieurs réponses et sélectionne la plus fréquente.

Dans toutes les tâches, GenRM utilisant CoT a systématiquement surpassé les méthodes alternatives de plusieurs points de pourcentage, y compris les modèles de récompense discriminative spécifiquement entraînés. Sur le benchmark GSM8K de raisonnement mathématique, un modèle Gemma-9B formé pour GenRM a atteint un taux de résolution de problèmes de 92,8 %, dépassant les performances de GPT-4 et Gemini 1.5 Pro.

« En unifiant la génération de solutions avec la vérification via l'objectif de prédiction du prochain token, GenRM améliore constamment les performances de vérification sur toutes les tâches », notent les chercheurs. « Cette amélioration est évidente tant pour les vérificateurs génératifs directs que basés sur CoT, indiquant que former le vérificateur à imiter des solutions correctes s'avère généralement bénéfique. »

Les expériences ont également révélé que GenRM s’adapte favorablement à l'augmentation de la taille du jeu de données et de la capacité du modèle. De plus, GenRM avec CoT continue de montrer des améliorations lorsqu'il échantillonne un plus grand nombre de réponses, offrant ainsi aux développeurs d'applications LLM une flexibilité accrue pour équilibrer précision et coûts computationnels.

« Comparé aux vérificateurs classiques, GenRM peut les surpasser en utilisant les mêmes données en s'entraînant simultanément sur la génération et la vérification, et l'entraînement de GenRM implique simplement un ajustement standard », déclare Agarwal. « Cependant, pour exploiter pleinement les capacités de GenRM, nous avons besoin de critiques ou de justifications de vérification clarifiant le label de récompense. Pour des données de haute qualité, cela peut impliquer un apport humain, mais une solution plus évolutive impliquerait des justifications générées par des LLM de manière synthétique. »

Les orientations futures pour GenRM pourraient inclure le dimensionnement des justifications de vérification synthétiques pour des tâches de génération ouverte, l'intégration de GenRM dans des pipelines d'apprentissage par renforcement et l'utilisation de capacités avancées des LLM telles que l'apprentissage par quelques exemples, la génération augmentée par récupération, ReAct, ainsi que la génération et l'exécution de code pour renforcer davantage la vérification.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles