Die Schulung von KI-Modellen hat sich 2023 erheblich beschleunigt, wie der neueste MLPerf Training 3.1 Benchmark zeigt. Die Innovationsgeschwindigkeit im Bereich der generativen KI ist beeindruckend, wobei die schnelle Modellschulung ein entscheidender Faktor für diesen Fortschritt ist. Der MLCommons MLPerf Benchmark misst und quantifiziert diese Schulungseffizienz. MLCommons ist ein offenes Ingenieurkonsortium, das sich der Verbesserung von Machine Learning (ML) Benchmarks, Datensätzen und Best Practices widmet, um die Entwicklung von KI voranzutreiben.
Der MLPerf Training 3.1 Benchmark umfasste Einsendungen von 19 Anbietern und generierte über 200 Leistungsdaten. Diese Runde beinhaltete Benchmarks für das Training von großen Sprachmodellen (LLMs), einschließlich GPT-3, und führte einen neuen Benchmark für das Open-Source-Modell Stable Diffusion zur Text-zu-Bild-Generierung ein.
„Mit über 200 Leistungsdaten sehen wir erhebliche Verbesserungen zwischen 50% und nahezu 3x besser“, sagte David Kanter, Geschäftsführer von MLCommons, während einer kürzlichen Pressekonferenz.
LLM-Training übertrifft Moores Gesetz
Ein herausragender Aspekt der MLPerf Training 3.1 Benchmarks sind die signifikanten Leistungsgewinne im LLM-Training. Seit Juni, als Daten für das LLM-Training erstmals berücksichtigt wurden, zeigen die MLPerf 3.1 Benchmarks eine fast 3x höhere Leistung im LLM-Training. „Im Vergleich zum schnellsten LLM-Training Benchmark aus der ersten Runde im Juni haben wir eine etwa 2,8x schnellere Leistung erreicht“, bemerkte Kanter. „Obwohl ich die zukünftigen Runden nicht vorhersagen kann, ist diese Verbesserung beeindruckend und weist auf unglaubliche Fähigkeiten hin.“
Kanter ist der Ansicht, dass die jüngsten Leistungsgewinne im Bereich der KI-Training über das hinausgehen, was Moores Gesetz vorschlägt, das eine Verdopplung der Rechenleistung alle paar Jahre prognostiziert. Er erklärte, dass der KI-Sektor die Hardwarearchitektur und Software mit einer Geschwindigkeit skaliert, die über diesen Vorhersagen liegt. „MLPerf dient als Barometer für den Fortschritt der Branche“, fügte Kanter hinzu.
Erhebliche Fortschritte von Branchenführern
Intel, Nvidia und Google haben im Rahmen der MLPerf Training 3.1 Benchmarks bemerkenswerte Fortschritte bei den LLM-Trainingsergebnissen erzielt. Intel berichtet, dass sein Habana Gaudi 2-Beschleuniger im Vergleich zu den Ergebnissen vom Juni eine Leistungssteigerung von 103% im Training erreicht hat, indem Methoden wie 8-Bit-Gleitkommazahlen (FP8) eingesetzt wurden.
„Wir haben FP8 mit demselben Software-Stack ermöglicht, was unsere Ergebnisse auf vorhandener Hardware verbessert hat“, sagte Itay Hubara, leitender Forscher bei Intel. „Wir haben unser Versprechen aus der letzten Einreichung erfüllt.“
Auch Googles Cloud TPU v5e, die am 29. August eingeführt wurde, zeigte Traininggewinne und nutzte FP8 für optimierte Leistung. Vaibhav Singh, Produktmanager für Cloud-Beschleuniger bei Google, sprach über die Skalierbarkeit, die durch die Cloud TPU Multislice-Technologie erreicht wurde. „Cloud TPU Multislice skaliert effektiv über das Rechenzentrum-Netzwerk“, erklärte Singh. „Mit dieser Technologie erreichten wir eine außergewöhnliche Skalierungsleistung von bis zu 1.024 Knoten mit 4.096 TPU v5e-Chips.“
Nvidia's EOS Supercomputer optimiert LLM-Training
Nvidia maximierte seine Effizienz im LLM-Training mit seinem EOS-Supercomputer, der erstmals 2022 zur Sprache kam. Die Ergebnisse zeigten eine 2,8-fache Steigerung der Trainingsgeschwindigkeit für GPT-3-Modelle im Vergleich zu den Benchmarks im Juni. Dave Salvator, Direktor für beschleunigte Computerprodukte bei Nvidia, hob hervor, dass EOS mit 10.752 GPUs ausgestattet ist, die über Nvidia Quantum-2 InfiniBand mit 400 Gigabit pro Sekunde verbunden sind, und über 860 Terabyte HBM3-Speicher verfügen.
„Die Geschwindigkeitsmetriken, die wir sehen, sind außergewöhnlich“, bemerkte Salvator. „Im Bereich der KI-Rechenleistung überschreiten wir 40 Exaflops, was bemerkenswert ist.“
Insgesamt unterstreicht der MLPerf Training 3.1 Benchmark die rasanten Fortschritte im KI-Training und markiert einen entscheidenden Wendepunkt in der Entwicklung der künstlichen Intelligenz.