Alors que les entreprises technologiques s'efforcent de déployer l'IA sur les appareils, la recherche sur les petits modèles linguistiques (SLM) optimisés pour les dispositifs aux ressources limitées progresse rapidement. Une avancée récente de Nvidia a introduit le Llama-3.1-Minitron 4B, une version compressée du modèle Llama 3, utilisant des techniques avancées de taille et de distillation. Ce nouveau modèle rivalise non seulement avec ses homologues plus grands, mais offre également un processus d'entraînement et de déploiement plus efficace.
Comprendre la Taille et la Distillation
La taille et la distillation sont des techniques essentielles pour développer des modèles linguistiques plus petits et plus efficaces. La taille élimine les composants moins critiques : la "taille en profondeur" supprime des couches entières, tandis que la "taille en largeur" abandonne des éléments spécifiques tels que les neurones et les têtes d'attention.
La distillation de modèle consiste à transférer des connaissances d'un "modèle enseignant" plus grand vers un "modèle étudiant" plus simple, avec deux approches principales :
1. Entraînement SGD : le modèle étudiant apprend à partir des entrées et des réponses du professeur.
2. Distillation classique des connaissances : ici, l'étudiant apprend non seulement des sorties finales, mais aussi des activations intermédiaires du modèle enseignant.
Une étude antérieure de Nvidia a combiné la taille avec la distillation classique, affinant le modèle Nemotron 15B jusqu'à un modèle de 8 milliards de paramètres. La distillation subséquente du modèle original vers la version taillée a abouti à un modèle de 4B, entraînant une amélioration des performances de 16 % sur le benchmark MMLU, tout en utilisant 40 fois moins de tokens d'entraînement qu'un démarrage à partir de zéro.
Développement du Llama 3.1-Minitron
En s'appuyant sur leurs techniques précédentes, Nvidia a appliqué les mêmes méthodes au modèle Llama 3.1 8B pour créer une version de 4 milliards de paramètres capable de rivaliser avec des modèles plus grands. Le processus a commencé par un ajustement du modèle 8B non taillé sur un jeu de données complet de 94 milliards de tokens afin de traiter les dérives de distribution qui gênaient sa guidance lors de la distillation.
Ensuite, deux formes de taille ont été utilisées : la taille uniquement en profondeur, réduisant les couches du modèle de 50 %, et la taille uniquement en largeur, éliminant 50 % des neurones dans certaines couches denses. Ces ajustements ont produit deux versions distinctes du modèle Llama-3.1-Minitron 4B.
Les modèles taillés ont été affinés à l'aide de NeMo-Aligner, un outil équipé de divers algorithmes d'alignement, y compris l'apprentissage par renforcement à partir des retours humains (RLHF) et SteerLM de Nvidia.
Résultats de Performance
Nvidia a évalué les modèles Llama-3.1-Minitron 4B sur des tâches liées au suivi des instructions, au jeu de rôle, à la génération augmentée par récupération et à l'appel de fonctions. Malgré un jeu de données d'entraînement plus petit, le Llama-3.1-Minitron 4B a montré des performances comparables à d'autres SLM comme Phi-2 2.7B et Gemma2 2.6B, tout en étant nettement plus grand. Cela met en lumière un compromis intéressant entre les coûts d'entraînement et l'efficacité de l'inférence.
La version taillée en largeur du modèle est désormais disponible sur Hugging Face sous la licence Nvidia Open Model, favorisant l'accessibilité et l'utilisation commerciale pour les développeurs. Nvidia souligne que "la taille et la distillation classique des connaissances sont un moyen rentable de créer des modèles linguistiques de grande taille, plus petits et de haute précision, par rapport aux méthodes traditionnelles." Ce travail met en avant le rôle crucial de la communauté open-source dans l'avancement de l'IA, démontrant comment les stratégies de taille et de distillation peuvent optimiser les LLM tout en minimisant les coûts. D'autres efforts innovants, tels que l'algorithme de fusion de modèles évolutionnaire de Sakana AI, soulignent le potentiel des solutions d'entraînement à faible coût dans le paysage de l'IA.