Amélioration du Raisonnement en IA Générative : Google DeepMind Présente la Technologie GenRM

Google DeepMind Lance GenRM, un Évaluateur Génératif pour Améliorer les Capacités de Raisonnement de l'IA

Le 27 août 2023, l'équipe de Google DeepMind a publié un article sur arXiv présentant leur innovant évaluateur génératif, GenRM. Ce nouveau modèle de récompense vise à renforcer considérablement les capacités de raisonnement de l'IA générative.

Actuellement, la méthode prédominante pour améliorer les grands modèles de langage (LLMs) est l'approche "Best-of-N". Cette technique génère N solutions candidates, qui sont ensuite classées par un évaluateur pour déterminer la meilleure option. Cependant, les évaluateurs LLM traditionnels fonctionnent généralement comme des classificateurs discriminatifs, ne tirant pas pleinement parti des capacités de génération de texte des LLM pré-entraînés.

Pour surmonter cette limitation, l'équipe de DeepMind a formé l'évaluateur en utilisant la prédiction du prochain token, intégrant ainsi validation et génération de solutions. GenRM présente plusieurs avantages distincts par rapport aux évaluateurs conventionnels :

- Intégration fluide de l'ajustement des instructions

- Support pour le raisonnement en chaîne

- Calcul d'un temps de raisonnement supplémentaire par vote majoritaire

Dans les tâches impliquant des algorithmes et un raisonnement mathématique fondamental, GenRM a surpassé à la fois les évaluateurs discriminatifs et les évaluateurs LLM en tant que juge, avec des évaluateurs basés sur Gemma, atteignant une augmentation du taux de succès dans la résolution de problèmes de 16 % à 64 %.

Google DeepMind affirme que GenRM constitue une évolution majeure dans les systèmes de récompense de l'IA, améliorant particulièrement la capacité à prévenir d’éventuels comportements frauduleux lors de l'entraînement de nouveaux modèles. Cette avancée souligne l'importance d'affiner les modèles de récompense pour garantir que les résultats de l'IA respectent les standards de responsabilité sociétale.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles