La formation des modèles d'IA a connu une accélération significative en 2023, comme le révèle le dernier benchmark MLPerf Training 3.1. Le rythme d'innovation dans le secteur de l'IA générative est remarquable, et l'efficacité de la formation des modèles joue un rôle clé dans cette avancée. Le benchmark MLCommons MLPerf suit et quantifie cette efficacité de formation. MLCommons est un consortium d'ingénierie open source dédié à l'amélioration des benchmarks en apprentissage machine (ML), des ensembles de données et des bonnes pratiques pour faire progresser le développement de l'IA.
Le benchmark MLPerf Training 3.1 a inclus des soumissions de 19 fournisseurs et a généré plus de 200 résultats de performance. Ce tour a présenté des benchmarks pour la formation de modèles de langage de grande taille (LLM), y compris GPT-3, et a introduit un nouveau benchmark pour le modèle de génération de texte en image open source Stable Diffusion.
« Avec plus de 200 résultats, nous constatons des améliorations substantielles allant de 50 % à presque 3x », a déclaré David Kanter, directeur exécutif de MLCommons, lors d'une récente conférence de presse.
Formation des LLM Dépasse la Loi de Moore
Un aspect marquant des benchmarks MLPerf Training 3.1 est les gains de performance significatifs dans la formation des LLM. Depuis juin, date à laquelle les données de formation de LLM ont été incluses pour la première fois, les benchmarks MLPerf 3.1 montrent une augmentation de performance d'environ 3x. « En comparant le benchmark de formation LLM le plus rapide du premier tour en juin à celui le plus récent, nous avons atteint une performance environ 2,8x plus rapide », a noté Kanter. « Bien que je ne puisse pas prédire les futurs tours, cette amélioration est impressionnante etindicative de capacités incroyables. »
Kanter estime que ces récentes améliorations de performance pour la formation de l’IA dépassent ce que la Loi de Moore prévoit, laquelle suggère un doublement de la performance de calcul tous les deux ans. Il a déclaré que le secteur de l'IA évolue du matériel et des logiciels à un rythme qui dépasse ces prédictions. « Le MLPerf sert de baromètre pour le progrès de l'industrie », a ajouté Kanter.
Avancées Significatives des Leaders de l'Industrie
Intel, Nvidia et Google ont réalisé des avancées notables dans les résultats de formation de LLM dans les benchmarks MLPerf Training 3.1. Intel a rapporté que son accélérateur Habana Gaudi 2 a atteint une augmentation de la vitesse de formation de 103 % par rapport aux résultats de juin, utilisant des techniques telles que les types de données à virgule flottante de 8 bits (FP8). « Nous avons activé le FP8 avec la même pile logicielle, améliorant nos résultats sur le matériel existant », a déclaré Itay Hubara, chercheur senior chez Intel. « Nous avons tenu notre promesse lors de notre dernière soumission. »
Le Cloud TPU v5e de Google, lancé le 29 août, a également démontré des gains de formation, exploitant de manière similaire le FP8 pour des performances optimisées. Vaibhav Singh, responsable des produits pour les accélérateurs cloud chez Google, a discuté des capacités d'évolutivité réalisées grâce à la technologie multislice de Cloud TPU. « Le multislice Cloud TPU s'évolue efficacement à travers le réseau des centres de données », a expliqué Singh. « Avec cette technologie, nous avons atteint des performances d'évolutivité exceptionnelles jusqu'à 1 024 nœuds utilisant 4 096 puces TPU v5e. »
Le Superordinateur EOS de Nvidia Propulse la Formation des LLM
Nvidia a maximisé son efficacité de formation des LLM en utilisant son superordinateur EOS, d’abord évoqué en 2022. Les résultats ont montré une augmentation de 2,8x de la vitesse de formation pour les modèles GPT-3 par rapport aux benchmarks de juin. Dave Salvator, directeur des produits de calcul accéléré chez Nvidia, a souligné que l'EOS est équipé de 10 752 GPU connectés via Nvidia Quantum-2 InfiniBand, fonctionnant à 400 gigabits par seconde, avec 860 téraoctets de mémoire HBM3. « Les indicateurs de vitesse que nous observons sont extraordinaires », a remarqué Salvator. « En termes de calcul IA, nous dépassons 40 exaflops, ce qui est remarquable. »
Dans l'ensemble, le benchmark MLPerf Training 3.1 met en lumière les avancées rapides dans la formation de l'IA, marquant un moment clé dans l'évolution de l'intelligence artificielle.