Échecs Fréquents d'Entraînement de Llama 3 : Analyse des 'Strikes' d'un Cluster de 16384 GPU H100 Toutes les 3 Heures

Le récent rapport de recherche de Meta révèle qu’un cluster de 16 384 cartes graphiques NVIDIA H100, utilisé pour entraîner le modèle LLaMA 3 de 40,5 milliards de paramètres, a connu 419 pannes inattendues sur une période de 54 jours, soit en moyenne une panne tous les trois heures. Plus de la moitié de ces pannes proviennent des GPU et de leur mémoire haute bande passante (HBM3).

L'ampleur et la synchronisation des tâches signifient qu'une seule défaillance de GPU peut perturber l'ensemble du processus d'entraînement, nécessitant un redémarrage. Malgré cet environnement difficile, l'équipe de Meta a réussi à maintenir plus de 90 % de temps d'entraînement effectif. Au cours de cette période de pré-entraînement de 54 jours, 466 interruptions ont été enregistrées, comprenant 47 interruptions planifiées et 419 perturbations inattendues. Les interruptions planifiées étaient principalement dues à la maintenance automatisée, tandis que les pannes inattendues résultaient surtout de problèmes matériels. Notamment, les problèmes liés aux GPU représentaient 58,7 % de ces interruptions inattendues.

Parmi les 419 défaillances inattendues, 148 (30,1 %) étaient attribuées à divers problèmes de GPU, y compris des pannes NVLink, tandis que 72 (17,2 %) découlaient de défauts dans la mémoire HBM3 des GPU. Il est remarquable qu'il n'y ait eu que deux pannes de CPU durant cette période. De plus, 41,3 % des interruptions inattendues ont été causées par une combinaison d'erreurs logicielles, de problèmes de câbles réseau et de dysfonctionnements des adaptateurs réseau.

Pour améliorer l'efficacité, l'équipe de Meta a mis au point divers outils et stratégies d'optimisation. Celles-ci incluent la réduction des temps de démarrage des tâches et des points de contrôle, l'utilisation du profileur NCCL de PyTorch pour diagnostiquer les problèmes de performance, et l'identification des GPU sous-performants. L'équipe a également étudié l'influence des facteurs environnementaux sur les performances des GPU, tels que les fluctuations de température pendant la journée et la contrainte de faire fonctionner de nombreux GPU simultanément sur le réseau électrique du centre de données.

À mesure que les paramètres des modèles d'IA continuent d'augmenter, les ressources computationnelles nécessaires s'accroissent également. Par exemple, un cluster prévu de 100 000 GPU H100 par xAI pourrait significativement augmenter les taux de panne, posant de plus grands défis pour les futures initiatives d'entraînement en IA.

Most people like

Find AI tools in YBX