L'évaluateur autodidacte de Meta permet aux LLM de générer leurs propres données d'entraînement.

Home Actualités IA L'évaluateur autodidacte de Meta permet aux LLM de générer leurs propres données d'entraînement.

Évaluation humaine des grands modèles de langage : L'innovation nécessaire

L'évaluation humaine est depuis longtemps le critère de référence pour mesurer la qualité et l'exactitude des grands modèles de langage (LLMs), en particulier pour des tâches ouvertes telles que l'écriture créative et le codage. Cependant, cette méthode reste souvent lente, coûteuse et nécessite une expertise spécialisée.

Présentation de l'Évaluateur Autodidacte

Des chercheurs de Meta FAIR ont développé une approche innovante appelée l'Évaluateur Autodidacte, qui utilise des données synthétiques pour former des évaluateurs de LLM sans annotations humaines. Bien que cette méthode présente certaines limitations, elle promet d'améliorer l'efficacité et la scalabilité de l'évaluation des LLM, en particulier pour les entreprises souhaitant construire des modèles personnalisés.

Les Défis de l'Évaluation des LLM

Les LLMs sont fréquemment utilisés comme évaluateurs pour aligner d'autres modèles sur les préférences humaines ou améliorer leur propre performance durant l’entraînement. Cela est crucial pour des tâches avec plusieurs résultats valides, fréquentes dans les scénarios créatifs et d'instructions complexes. Traditionnellement, la formation d'évaluateurs LLM précis dépendait de données annotées par des humains, un processus coûteux et long qui freine le développement rapide d'applications basées sur les LLM.

Fonctionnement de l'Évaluateur Autodidacte

L'Évaluateur Autodidacte aborde ce problème en éliminant le besoin de données labellisées par des humains. Il repose sur le concept de LLM-en-Juge, où le modèle reçoit une entrée, deux réponses possibles et un prompt d'évaluation pour déterminer laquelle est supérieure en générant une chaîne de raisonnement.

Le processus commence avec un LLM de base et une vaste collection d'instructions manuscrites non labellisées, fréquemment rencontrées dans les systèmes de production. L'évaluateur sélectionne un ensemble d'instructions de cette collection non organisée et génère des paires de réponses : une "choisie" comme étant de qualité supérieure et l'autre "rejetée".

L'évaluateur est ensuite formé de manière itérative. À chaque itération, il échantillonne plusieurs traces de raisonnement et jugements de type LLM-en-Juge. Les chaînes de raisonnement correctes sont incluses dans l'ensemble d'entraînement, comprenant l'entrée, les réponses vraies et fausses, et les chaînes de jugement. Le modèle est affiné sur ce nouvel ensemble de données, entraînant une mise à jour pour les itérations suivantes.

Tests de l'Évaluateur Autodidacte

Les chercheurs ont lancé leur Évaluateur Autodidacte en utilisant le modèle Llama 3-70B-Instruct et ont employé le dataset WildChat, sélectionnant plus de 20 000 exemples de catégories de raisonnement. Ils ont également exploré d'autres ensembles de données et tâches, y compris le codage et les problèmes mathématiques de mots, permettant à la chaîne d'auto-apprentissage de générer l'ensemble des réponses et de formation de manière autonome.

Leurs expériences ont montré que l'Évaluateur Autodidacte renforçait considérablement l'exactitude du modèle de base sur la référence RewardBench, augmentant la performance de 75,4 % à 88,7 % en cinq itérations, sans aucune annotation humaine. Cette précision rivalise, et dans certains cas, dépasse celle des modèles entraînés sur des données labellisées par des humains, surpassant même certains modèles de pointe privés. Des améliorations similaires ont été observées sur la référence MT-Bench, qui évalue la performance des LLM dans des conversations à plusieurs tours.

Implications pour les Entreprises

Cette recherche s'inscrit dans une tendance croissante d'utilisation des LLM dans des boucles d'auto-amélioration automatisées, réduisant l'effort manuel pour créer des modèles performants et facilitant le développement d'applications IA plus scalables. L'Évaluateur Autodidacte est particulièrement bénéfique pour les entreprises disposant de grandes quantités de données d'entreprise non labellisées qui souhaitent affiner des modèles sans annotation manuelle exhaustive.

Cependant, il est essentiel de reconnaître certaines limites. L'approche repose sur un modèle de base initial qui est ajusté aux instructions et aligné sur les préférences humaines. Les chercheurs ont utilisé le modèle Mixtral 8x22B, un modèle à mélange d'experts, pour leur ensemble de données d'entraînement initial, soulignant la nécessité d'une sélection soignée des modèles de base et de référence selon les données et les tâches spécifiques.

Les références standardisées peuvent ne pas capturer pleinement les capacités et les limitations d'un LLM. De plus, des boucles entièrement automatisées reposant uniquement sur des LLM pour l'auto-évaluation risquent d'optimiser pour des benchmarks tout en sous-performant dans des applications réelles. Les entreprises doivent effectuer des tests manuels à différentes étapes de l'entraînement pour s'assurer que les modèles atteignent leurs normes de performance souhaitées.

Créez votre propre robot IA : Découvrez comment le tutoriel LeRobot de Hugging Face transforme le monde de la robotique !

Salesforce lance des modèles d'IA multimodale open-source 'xGen-MM' pour améliorer la compréhension du langage visuel.

Most people like

Claros

39.3K

Révolutionner les ventes : Comment les agents commerciaux IA améliorent l'expérience client et stimulent les revenus.

Vendeur IA AI Chatbot

Udio AI Music Generator

130.9K

Libérez votre créativité musicale avec notre plateforme innovante qui vous permet de générer des chansons uniques grâce à la technologie AI—complètement gratuitement ! Que vous soyez un musicien en herbe ou que vous souhaitiez simplement explorer l'art de l'écriture de chansons, notre outil offre une manière simple et amusante de créer de la musique personnalisée adaptée à votre style. Commencez votre voyage musical aujourd'hui et découvrez les possibilités infinies de l'écriture de chansons guidée par l'IA !

générateur de musique AI AI Singing Generator

Kodezi

21.9K

Découvrez Kodezi, un outil innovant d'IA conçu pour corriger et améliorer automatiquement la qualité de votre code sans effort. Transformez votre expérience de programmation grâce aux fonctionnalités intelligentes de Kodezi, garantissant un code plus propre et sans erreur en un rien de temps.

Outil de développement IA AI Code Assistant

AI Two

69.5K

Découvrez une plateforme innovante basée sur l'IA qui révolutionne le design intérieur. Cet outil à la pointe de la technologie utilise l'intelligence artificielle pour optimiser le processus, facilitant ainsi la création d'espaces magnifiques et fonctionnels pour les propriétaires comme pour les designers. Que vous rénoviez votre maison actuelle ou que vous construisiez de zéro, notre plateforme offre des fonctionnalités qui améliorent la créativité et l'efficacité, adaptées à vos besoins spécifiques. Découvrez comment notre technologie d'IA peut transformer votre vision en réalité tout en simplifiant l'ensemble de l'expérience de design.

Design d'intérieur assisté par IA AI Design Generator

Find AI tools in YBX