Évaluation humaine des grands modèles de langage : L'innovation nécessaire
L'évaluation humaine est depuis longtemps le critère de référence pour mesurer la qualité et l'exactitude des grands modèles de langage (LLMs), en particulier pour des tâches ouvertes telles que l'écriture créative et le codage. Cependant, cette méthode reste souvent lente, coûteuse et nécessite une expertise spécialisée.
Présentation de l'Évaluateur Autodidacte
Des chercheurs de Meta FAIR ont développé une approche innovante appelée l'Évaluateur Autodidacte, qui utilise des données synthétiques pour former des évaluateurs de LLM sans annotations humaines. Bien que cette méthode présente certaines limitations, elle promet d'améliorer l'efficacité et la scalabilité de l'évaluation des LLM, en particulier pour les entreprises souhaitant construire des modèles personnalisés.
Les Défis de l'Évaluation des LLM
Les LLMs sont fréquemment utilisés comme évaluateurs pour aligner d'autres modèles sur les préférences humaines ou améliorer leur propre performance durant l’entraînement. Cela est crucial pour des tâches avec plusieurs résultats valides, fréquentes dans les scénarios créatifs et d'instructions complexes. Traditionnellement, la formation d'évaluateurs LLM précis dépendait de données annotées par des humains, un processus coûteux et long qui freine le développement rapide d'applications basées sur les LLM.
Fonctionnement de l'Évaluateur Autodidacte
L'Évaluateur Autodidacte aborde ce problème en éliminant le besoin de données labellisées par des humains. Il repose sur le concept de LLM-en-Juge, où le modèle reçoit une entrée, deux réponses possibles et un prompt d'évaluation pour déterminer laquelle est supérieure en générant une chaîne de raisonnement.
Le processus commence avec un LLM de base et une vaste collection d'instructions manuscrites non labellisées, fréquemment rencontrées dans les systèmes de production. L'évaluateur sélectionne un ensemble d'instructions de cette collection non organisée et génère des paires de réponses : une "choisie" comme étant de qualité supérieure et l'autre "rejetée".
L'évaluateur est ensuite formé de manière itérative. À chaque itération, il échantillonne plusieurs traces de raisonnement et jugements de type LLM-en-Juge. Les chaînes de raisonnement correctes sont incluses dans l'ensemble d'entraînement, comprenant l'entrée, les réponses vraies et fausses, et les chaînes de jugement. Le modèle est affiné sur ce nouvel ensemble de données, entraînant une mise à jour pour les itérations suivantes.
Tests de l'Évaluateur Autodidacte
Les chercheurs ont lancé leur Évaluateur Autodidacte en utilisant le modèle Llama 3-70B-Instruct et ont employé le dataset WildChat, sélectionnant plus de 20 000 exemples de catégories de raisonnement. Ils ont également exploré d'autres ensembles de données et tâches, y compris le codage et les problèmes mathématiques de mots, permettant à la chaîne d'auto-apprentissage de générer l'ensemble des réponses et de formation de manière autonome.
Leurs expériences ont montré que l'Évaluateur Autodidacte renforçait considérablement l'exactitude du modèle de base sur la référence RewardBench, augmentant la performance de 75,4 % à 88,7 % en cinq itérations, sans aucune annotation humaine. Cette précision rivalise, et dans certains cas, dépasse celle des modèles entraînés sur des données labellisées par des humains, surpassant même certains modèles de pointe privés. Des améliorations similaires ont été observées sur la référence MT-Bench, qui évalue la performance des LLM dans des conversations à plusieurs tours.
Implications pour les Entreprises
Cette recherche s'inscrit dans une tendance croissante d'utilisation des LLM dans des boucles d'auto-amélioration automatisées, réduisant l'effort manuel pour créer des modèles performants et facilitant le développement d'applications IA plus scalables. L'Évaluateur Autodidacte est particulièrement bénéfique pour les entreprises disposant de grandes quantités de données d'entreprise non labellisées qui souhaitent affiner des modèles sans annotation manuelle exhaustive.
Cependant, il est essentiel de reconnaître certaines limites. L'approche repose sur un modèle de base initial qui est ajusté aux instructions et aligné sur les préférences humaines. Les chercheurs ont utilisé le modèle Mixtral 8x22B, un modèle à mélange d'experts, pour leur ensemble de données d'entraînement initial, soulignant la nécessité d'une sélection soignée des modèles de base et de référence selon les données et les tâches spécifiques.
Les références standardisées peuvent ne pas capturer pleinement les capacités et les limitations d'un LLM. De plus, des boucles entièrement automatisées reposant uniquement sur des LLM pour l'auto-évaluation risquent d'optimiser pour des benchmarks tout en sous-performant dans des applications réelles. Les entreprises doivent effectuer des tests manuels à différentes étapes de l'entraînement pour s'assurer que les modèles atteignent leurs normes de performance souhaitées.