MLCommons a annoncé ses derniers résultats d'inférence MLPerf, mettant en avant un nouveau benchmark d'IA générative et les premiers indicateurs de performance validés pour le processeur GPU Blackwell de prochaine génération de Nvidia. En tant qu'organisation multi-parties prenantes et neutre vis-à-vis des fournisseurs, MLCommons supervise les benchmarks MLPerf pour l'entraînement et l'inférence en IA. Les résultats récents, avec 964 soumissions de performance provenant de 22 organisations, offrent un aperçu précieux du paysage dynamique des matériels et logiciels d'IA. En fournissant des mesures standardisées et reproductibles de la performance d'inférence en IA, MLPerf aide les décideurs d'entreprise à naviguer dans les complexités de déploiement de l'IA, en équilibrant performance, efficacité et coût.
Points Clés des Résultats MLPerf Inference v4.1
Parmi les mises à jour remarquables de MLPerf Inference v4.1, l'introduction du benchmark Mixture of Experts (MoE) évalue la performance du modèle Mixtral 8x7B. Ce tour a également présenté une diversité de nouveaux processeurs et systèmes, dont le MI300x d'AMD, le TPUv6e (Trillium) de Google, le Granite Rapids d'Intel, le SpeedAI 240 d'Untether AI et le GPU Blackwell B200 de Nvidia.
David Kanter, fondateur de MLPerf chez MLCommons, a exprimé son enthousiasme quant à la diversité des soumissions : « Plus la gamme de systèmes évalués est large, plus les opportunités de comparaison et d'insights au sein de l'industrie sont grandes. »
Le Benchmark MoE pour l'Inference en IA
Une avancée significative de ce tour est le benchmark MoE, conçu pour relever les défis posés par de plus en plus de grands modèles linguistiques. Miro Hodak, membre senior du personnel technique chez AMD et président du groupe de travail sur l'inférence de MLCommons, a expliqué qu'au lieu de se fier à un seul grand modèle, l'approche MoE se compose de plusieurs modèles plus petits et spécifiques au domaine, ce qui améliore l'efficacité lors du déploiement.
Le benchmark MoE évalue la performance matérielle en utilisant le modèle Mixtral 8x7B, qui intègre huit experts avec 7 milliards de paramètres chacun. Le modèle couvre trois tâches clés :
- Réponses à des questions basées sur le jeu de données Open Orca
- Raisonnement mathématique utilisant le jeu de données GSMK
- Tâches de codage basées sur le jeu de données MBXP
Hodak a souligné que le cadre MoE exploite mieux les forces des modèles par rapport aux benchmarks traditionnels à tâche unique, et favorise des solutions d'IA plus efficaces pour les entreprises.
Améliorations Prometteuses de l'Inference en IA avec le GPU Blackwell de Nvidia
Le processus de test MLPerf offre aux fournisseurs une plateforme pour démontrer des technologies à venir avec des résultats rigoureusement examinés. Parmi les lancements très attendus figure le GPU Blackwell de Nvidia, annoncé en mars. Bien qu'il faille plusieurs mois avant que les utilisateurs puissent accéder au Blackwell, les résultats de MLPerf Inference 4.1 offrent un aperçu de ses capacités.
« Il s'agit de notre première divulgation de performance fondée sur des données mesurées pour Blackwell, et nous sommes heureux de le partager », a déclaré Dave Salvator de Nvidia lors d'un récent briefing.
Les benchmarks mettent en avant la performance des charges de travail d'IA générative basée sur la charge de travail LLM la plus importante de MLPerf, Llama 2 70B. « Nous obtenons 4 fois plus de performance par GPU par rapport à notre génération précédente », a noté Salvator.
En plus du nouveau GPU Blackwell, Nvidia continue d'extraire davantage de performance de son matériel existant. Les résultats de MLPerf Inference 4.1 indiquent que le GPU Hopper a enregistré une amélioration de 27 % depuis les derniers benchmarks il y a six mois, purement grâce à des améliorations logicielles.
« Ces gains proviennent uniquement du logiciel », a expliqué Salvator. « Nous avons utilisé le même matériel qu'avant, mais les optimisations logicielles continues nous permettent d'obtenir de meilleures performances. »
Grâce à ces avancées, les derniers résultats d'inférence MLPerf de MLCommons offrent des aperçus essentiels sur l'avenir du matériel d'IA et son potentiel de déploiement dans diverses applications d'entreprise.