Meta a récemment publié un rapport de recherche complet soulignant les défis majeurs rencontrés lors de l'entraînement du modèle Llama 3, qui comprend 405 milliards de paramètres. Cet entraînement a été réalisé sur un cluster composé de 16 384 GPU Nvidia H100 pendant 54 jours, période durant laquelle le système a subi 419 pannes imprévues, soit environ une toutes les trois heures. Il est à noter que plus de la moitié de ces échecs étaient liés aux GPU et à leur mémoire à large bande (HBM3).
La sortie du modèle open-source Llama 3.1 de Meta a suscité un vif intérêt, les utilisateurs se posant des questions sur divers aspects, tels que les sources des données d'entraînement, la proportion de données synthétiques, l'absence d'architecture mixte d'experts (MoE), les processus d'apprentissage par renforcement à partir des retours humains (RLHF) et les méthodes d'évaluation du modèle. Une grande anticipation entoure l'avenir du modèle Llama, notamment en ce qui concerne le futur Llama 4 et les avancées dans les technologies proxy.
Dans l'évaluation de l'échelle des paramètres de ce LLM, Meta a pris en compte plusieurs facteurs, tels que les lois de mise à l'échelle, la durée d'entraînement et les limitations matérielles. La recherche met en avant une approche équilibrée qui optimise l'efficacité des inférences, tout en respectant les lois de mise à l'échelle et le nombre total de jetons d'entraînement. Avec un total de 405 milliards de paramètres, Llama 3.1 se positionne comme un concurrent sérieux, comparable à GPT-4. Bien que l'objectif ultime ne soit pas encore atteint, des progrès sont réalisés, et il est prévu que les futurs modèles soient encore plus performants.
Le document Chinchilla souligne l'importance du nombre total de jetons d'entraînement, affirmant que le ratio optimal entre les paramètres du modèle et les jetons d'entraînement est crucial face aux contraintes de puissance de calcul. Pour améliorer l'efficacité des inférences, Meta a décidé d'accroître à la fois la quantité de jetons d'entraînement et la durée d'entraînement, améliorant ainsi la performance pour une adoption plus large au sein de la communauté open-source.
Malgré des similarités architecturales avec Llama 2, Llama 3 apporte des améliorations substantielles en termes d'échelle et de qualité des données, le jeu de données passant de 2 trillions à 15 trillions de jetons. La tendance actuelle dans le développement des modèles se concentre sur l'amélioration des scores de référence par le biais d'améliorations post-entraînement, bien que l'évaluation des modèles reste un défi de recherche non résolu. Le risque de surajustement est une préoccupation, pouvant entraver la transférabilité des gains de performance entre des capacités similaires. L'entraînement du modèle Llama 4 a débuté en juin, avec un accent probablement mis sur les technologies proxy.
Les pannes fréquentes lors de l'entraînement de Llama 3 ont été attribuées à sa taille massive et à une synchronisation élevée, où la défaillance d'un seul GPU pouvait perturber l'ensemble du processus d'entraînement. Sur les 419 pannes imprévues, environ 58,7 % étaient liées aux GPU, notamment à divers problèmes NVLink. Étant donné que les GPU H100 de Nvidia fonctionnent sous de lourdes charges, il n'est pas étonnant que seules trois incidents aient nécessité une intervention manuelle, tandis que les autres problèmes ont été résolus automatiquement.
Pour maximiser le temps d'entraînement efficace, l'équipe de Llama 3 a mis en œuvre une maintenance automatisée du cluster, garantissant que plus de 90 % du temps d'entraînement était utilisé de manière optimale. Meta a développé plusieurs outils et stratégies d'optimisation, comme la réduction des temps de démarrage et de point de contrôle des tâches, l'utilisation duenregistreur de vol NCCL intégré à PyTorch, et l'identification des GPU à la traîne. Le NCCLX a joué un rôle essentiel dans la détection et la localisation des pannes, notamment en ce qui concerne les problèmes liés à NVLink et RoCE.
Pendant l'entraînement, les fluctuations de la consommation électrique de milliers de GPU ont posé des défis significatifs aux besoins en électricité du centre de données. Meta doit s'assurer que ses centres de données peuvent soutenir Llama 3 et même des modèles futurs plus grands avec une alimentation adéquate. Les facteurs environnementaux ont également influencé les performances d'entraînement; par exemple, les variations de température pendant l'entraînement de Llama 3 ont conduit à des ajustements dynamiques de la tension et de la fréquence dans les GPU, provoquant de légères fluctuations du débit.
Avec une moyenne de 7,76 pannes toutes les 24 heures sur les 16 384 GPU H100, le superordinateur xAI Memphis—équipé de 100 000 GPU H100—pourrait connaître un taux de pannes encore plus élevé. Alors que le nombre de paramètres des modèles d'IA continue d'augmenter, la demande en ressources de calcul se développe en conséquence. Malgré ces défis, Meta a démontré une robuste capacité à gérer les pannes et à améliorer l'efficacité de l'entraînement de l'IA à grande échelle, établissant ainsi une solide base pour l'entraînement de modèles encore plus grands à l'avenir.