MLCommons hat die neuesten Ergebnisse von MLPerf Inference bekannt gegeben, die einen neuen Benchmark für generative KI und die ersten validierten Leistungskennzahlen für Nvidias nächstgenannten Blackwell-GPU-Prozessor präsentieren. Als eine multi-stakeholder, anbieterneutrale Organisation überwacht MLCommons die MLPerf-Benchmarks für KI-Training und -Inference. Die aktuellen Ergebnisse, die 964 Leistungsbeiträge von 22 Organisationen umfassen, bieten einen entscheidenden Überblick über die sich rasant entwickelnde Landschaft der KI-Hardware und -Software. Durch standardisierte und reproduzierbare Messungen der KI-Inferenzleistung liefert MLPerf den Entscheidungsträgern in Unternehmen die notwendigen Einblicke, um die Komplexitäten der KI-Einführung zu bewältigen und dabei Leistung, Effizienz und Kosten auszubalancieren.
Wichtige Highlights aus MLPerf Inference v4.1
Zu den bemerkenswerten Neuerungen in MLPerf Inference v4.1 gehört die Einführung des Mixture of Experts (MoE)-Benchmarks zur Bewertung der Leistung des Mixtral 8x7B-Modells. Diese Runde zeigte eine vielfältige Palette neuer Prozessoren und Systeme, darunter AMDs MI300x, Googles TPUv6e (Trillium), Intels Granite Rapids, Untether AIs SpeedAI 240 und Nvidias Blackwell B200 GPU.
David Kanter, Gründer von MLPerf bei MLCommons, äußerte sich begeistert über die vielfältigen Einreichungen: „Je breiter die Palette der bewerteten Systeme ist, desto größer werden die Vergleichsmöglichkeiten und Einblicke in die Branche.“
Der MoE-Benchmark für KI-Inferenz
Ein bedeutender Fortschritt in dieser Runde ist der MoE-Benchmark, der darauf abzielt, die Herausforderungen durch immer größere Sprachmodelle zu bewältigen. Miro Hodak, Senior Technical Staff Member bei AMD und Vorsitzender der Inference-Arbeitsgruppe von MLCommons, erklärte, dass der MoE-Ansatz aus mehreren kleineren, domänenspezifischen Modellen besteht, anstatt sich auf ein einziges großes Modell zu verlassen, was die Effizienz bei der Bereitstellung verbessert.
Der MoE-Benchmark bewertet die Hardware-Leistung mit dem Mixtral 8x7B-Modell, das aus acht Experten mit jeweils 7 Milliarden Parametern besteht und drei zentrale Aufgaben integriert:
- Fragebeantwortung basierend auf dem Open Orca-Datensatz
- Mathematische Schlussfolgerungen unter Verwendung des GSMK-Datensatzes
- Codierungsaufgaben basierend auf dem MBXP-Datensatz
Hodak betonte, dass der MoE-Rahmen nicht nur die Stärken der Modelle im Vergleich zu herkömmlichen Einzelaufgaben-Benchmarks besser nutzt, sondern auch effizientere KI-Lösungen für Unternehmen fördert.
Nvidias Blackwell-GPU: vielversprechende Verbesserungen der KI-Inferenz
Der MLPerf-Testprozess bietet Anbietern eine Plattform, um bevorstehende Technologien mit streng überprüften Ergebnissen darzustellen. Unter den mit Spannung erwarteten Neuerungen befindet sich Nvidias Blackwell-GPU, die im März angekündigt wurde. Es wird zwar noch einige Monate dauern, bis Nutzer auf Blackwell zugreifen können, doch die Ergebnisse von MLPerf Inference 4.1 geben einen ersten Einblick in deren Fähigkeiten.
„Dies ist unsere erste Leistungsoffenbarung mit gemessenen Daten zu Blackwell, und wir freuen uns, dies zu teilen“, sagte Dave Salvator von Nvidia bei einem kürzlichen Briefing.
Die Benchmarks heben die Leistung von generativen KI-Workloads hervor, die auf MLPerf’s größtem LLM-Workload, Llama 2 70B, basieren. „Wir erreichen eine viermal höhere Leistung pro GPU im Vergleich zur vorherigen Generation“, bemerkte Salvator.
Zusätzlich zur neuen Blackwell-GPU gelingt es Nvidia weiterhin, die Leistung seiner bestehenden Hardware zu steigern. Die Ergebnisse von MLPerf Inference 4.1 zeigen, dass die Hopper-GPU seit den letzten Benchmarks vor sechs Monaten um 27 % gestiegen ist, was rein durch Softwareverbesserungen bedingt ist.
„Diese Fortschritte stammen allein von der Software“, erklärte Salvator. „Wir haben die gleiche Hardware wie zuvor verwendet, aber laufende Softwareoptimierungen ermöglichen es uns, eine höhere Leistung zu erzielen.“
Mit diesen Fortschritten bieten die neuesten Ergebnisse von MLCommons zu MLPerf Inference entscheidende Einblicke in die Zukunft der KI-Hardware und deren Einsatzmöglichkeiten in verschiedenen Unternehmensanwendungen.