Nvidia ist im Bereich der KI-Beschleuniger nicht allein; Intel erzielt bedeutende Fortschritte mit seiner Gaudi 2-Technologie, wie neue Forschungsergebnisse von Databricks zeigen. Laut der Studie konkurriert Gaudi 2 erfolgreich mit Nvidias führenden KI-Beschleunigern. Bei der Inferenz großer Sprachmodelle (LLM) erreicht Gaudi 2 die Latenz der Nvidia H100-Systeme beim Decoding und übertrifft die Leistung der Nvidia A100. Zudem erzielt Gaudi 2 eine höhere Speicherkapazitätsauslastung als sowohl die H100 als auch die A100.
Obwohl Nvidias Spitzenbeschleuniger weiterhin überlegene Trainingsleistungen bieten, fand Databricks heraus, dass Gaudi 2 die zweitschnellste Einzelknoten-LLM-Trainingsleistung nach der Nvidia H100 liefert, mit über 260 TFLOPS pro Chip. Auffällig ist, dass Gaudi 2 basierend auf den Preisen öffentlicher Clouds das beste Preis-Leistungs-Verhältnis für Training und Inferenz im Vergleich zur A100 und H100 bietet.
Intel teilt auch die Testergebnisse von Gaudi 2 über den MLcommons MLPerf-Benchmark für Training und Inferenz, um die Leistung der Technologie durch Drittanbieterdaten weiter zu validieren. "Wir waren von der Effizienz von Gaudi 2 beeindruckt, insbesondere bei LLM-Inferenz", sagte Abhinav Venigalla, führender NLP-Architekt bei Databricks. Er stellte fest, dass das Team keine Zeit hatte, die Leistungsvorteile der FP8-Unterstützung von Gaudi 2 in der neuesten Softwareversion vollständig zu erkunden.
Die Erkenntnisse von Intel stimmen mit den Ergebnissen von Databricks überein. Eitan Medina, COO von Habana Labs (einer Tochtergesellschaft von Intel), erklärte, der Bericht bestätige die internen Leistungsmetriken und Kundenfeedbacks von Intel. „Die Validierung unserer Behauptungen ist entscheidend, insbesondere da viele Gaudi als Intels bestgehütetes Geheimnis betrachten“, bemerkte er und betonte die Bedeutung solcher Publikationen zur Steigerung der Sichtbarkeit.
Seit der Übernahme von Habana Labs und seiner Gaudi-Technologie im Jahr 2019 für 2 Milliarden US-Dollar hat Intel seine Fähigkeiten kontinuierlich verbessert. Sowohl Intel als auch Nvidia nehmen aktiv an den regelmäßig aktualisierten MLcommons MLPerf-Benchmarks teil. Die neuesten MLPerf 3.1-Benchmarks, veröffentlicht im November, zeigen neue Geschwindigkeitsrekorde beim LLM-Training für beide Unternehmen, ergänzt durch wettbewerbsfähige Leistungen in den Inferenzbenchmarks im September.
Während Benchmarks wie MLPerf aufschlussreich sind, wies Medina darauf hin, dass viele Kunden ihre Tests priorisieren, um die Kompatibilität mit spezifischen Modellen und Anwendungsfällen sicherzustellen. „Die Reife des Software-Stacks ist entscheidend, da Kunden manchmal skeptisch gegenüber Benchmarks sind, bei denen Anbieter stark auf bestimmte Metriken optimieren“, sagte er. Er sieht die MLPerf-Ergebnisse als wertvollen ersten Filter, bevor Unternehmen weitere Zeit in Tests investieren.
Mit Blick auf die Zukunft bereitet sich Intel darauf vor, 2024 den Gaudi 3 KI-Beschleuniger einzuführen. Gaudi 3, der auf einem 5-Nanometer-Prozess basiert, verspricht, die Verarbeitungsleistung um das Vierfache und die Netzwerkbandbreite im Vergleich zu Gaudi 2 zu verdoppeln. Medina erklärte: „Gaudi 3 stellt einen bedeutenden Sprung in der Leistung dar und verbessert das Verhältnis von Leistung pro Dollar und pro Watt.“
Über Gaudi 3 hinaus plant Intel die Entwicklung zukünftiger Generationen, die Hochleistungsrechner (HPC) und KI-Beschleuniger-Technologien integrieren werden. Das Unternehmen erkennt auch die Bedeutung seiner CPU-Technologien für KI-Inferenz-Workloads an und kündigte kürzlich die 5. Generation der Xeon-Prozessoren mit KI-Beschleunigung an. „CPUs spielen nach wie vor eine entscheidende Rolle bei Inferenz- und Feintuning-Aufgaben, besonders wenn sie mit Gaudi-Beschleunigern für hochdichte KI-Computing-Workloads kombiniert werden“, schloss Medina und plädierte für ein breites Spektrum an Lösungen.