SambaNova stellt neuen Geschwindigkeitsrekord für Llama 3 mit 1.000 Tokens pro Sekunde auf

Es gibt keinen einheitlichen Geschwindigkeitsmesser zur Bewertung der Leistung von generativen KI-Modellen, doch eine wichtige Kennzahl ist die Anzahl der verarbeiteten Tokens pro Sekunde. Heute gab SambaNova Systems einen bedeutenden Fortschritt in der Leistung generativer KI bekannt: Mit dem Llama 3 8B-Parameter-Modell wurde eine beeindruckende Geschwindigkeit von 1.000 Tokens pro Sekunde erreicht. Der vorherige schnellste Benchmark für Llama 3 lag bei 800 Tokens pro Sekunde und wurde von Groq gehalten. Dieser neue Meilenstein wurde unabhängig von der Testfirma Artificial Analysis verifiziert. Die erhöhte Verarbeitungsgeschwindigkeit hat erhebliche Auswirkungen auf Unternehmen und könnte zu schnelleren Reaktionszeiten, besserer Hardware-Nutzung und reduzierten Betriebskosten führen.

Ein Wettlauf um die KI-Leistung

„Wir erleben eine Beschleunigung im Wettlauf um KI-Chips, die unsere Erwartungen übersteigt. Wir waren begeistert, die Ansprüche von SambaNova mit unabhängigen Benchmarks zur realen Leistung zu bestätigen“, sagte George Cameron, Mitgründer von Artificial Analysis. „KI-Entwickler haben jetzt eine größere Auswahl an Hardware-Optionen, was besonders vorteilhaft für geschwindigkeitsabhängige Anwendungen wie KI-Agenten und KI-Lösungen für Verbraucher ist, die minimale Reaktionszeiten und eine effiziente Dokumentenverarbeitung erfordern.“

Wie SambaNova Llama 3 und generative KI beschleunigt

SambaNova hat sich der Entwicklung von generativen KI-Lösungen für Unternehmen verschrieben, die sowohl Hardware- als auch Softwarefähigkeiten umfassen.

Auf der Hardware-Seite hat das Unternehmen einen einzigartigen KI-Chip entwickelt, bekannt als Reconfigurable Dataflow Unit (RDU). Ähnlich wie die KI-Beschleuniger von Nvidia sind RDUs sowohl für das Training als auch für die Inferenz geeignet und verbessern gezielt Unternehmenslasten und Modellanpassungen. Das neueste Modell, der SN40L, wurde im September 2023 vorgestellt.

SambaNova bietet außerdem einen eigenen Software-Stack, der das Samba-1-Modell umfasst, das am 28. Februar gestartet wurde. Dieses Modell mit 1 Billion Parametern wird als Samba-CoE (Combination of Experts) bezeichnet, wodurch Unternehmen mehrere Modelle separat oder in Kombination nutzen können, individuell angepasst an ihre Datenbedarfe.

Für die Geschwindigkeit von 1.000 Tokens pro Sekunde verwendete SambaNova sein Samba-1 Turbo-Modell, eine API-Version, die für Tests zur Verfügung gestellt wurde. Das Unternehmen plant, diese Geschwindigkeitsoptimierungen bald in sein Hauptunternehmensmodell zu integrieren. Cameron merkte jedoch an, dass Groqs Messung von 800 Tokens pro Sekunde sich auf seinen öffentlichen API-Endpunkt bezieht, während die Ergebnisse von SambaNova von einem speziellen privaten Endpunkt stammen, was direkte Vergleiche erschwert.

„Dennoch übertrifft diese Geschwindigkeit die 8-fache Medianproduktion anderer API-Anbieter, die wir benchmarkten, und ist mehrere Male schneller als die typischen Ausgaberaten auf Nvidia H100s“, sagte Cameron.

Reconfigurable Dataflow für verbesserte Leistung

Die Leistung von SambaNova basiert auf seiner reconfigurable Dataflow-Architektur, die zentral für die RDU-Technologie ist. Diese Architektur ermöglicht eine optimierte Ressourcenallokation über die Schichten und Kerne neuronaler Netzwerke durch Compiler-Zuweisungen.

„Mit Dataflow können wir die Modellenzuweisungen kontinuierlich verfeinern, da es vollständig konfigurierbar ist“, sagte Rodrigo Liang, CEO und Gründer von SambaNova. „Das führt nicht nur zu inkrementellen Verbesserungen, sondern auch zu erheblichen Effizienz- und Leistungssteigerungen, während sich die Software weiterentwickelt.“

Ursprünglich erzielte Liangs Team bei der Veröffentlichung von Llama 3 eine Leistung von 330 Tokens pro Sekunde auf Samba-1. Durch umfangreiche Optimierungen in den vergangenen Monaten hat sich diese Geschwindigkeit nun auf 1.000 Tokens pro Sekunde verdreifacht. Liang erklärte, dass Optimierung den Ausgleich der Ressourcennutzung unter den Kernen umfasst, um Engpässe zu vermeiden und die Gesamtproduktivität im neuronalen Netzwerk-Pipeline zu maximieren, was dem Ansatz in SambaNovas Software-Stack ähnelt, um Unternehmen bei ihren Anpassungsbemühungen zu unterstützen.

Qualität auf Unternehmensniveau und höhere Geschwindigkeit

Liang betonte, dass SambaNova diese Geschwindigkeitsmarke mit 16-Bit-Präzision erreicht, einem Standard, der die Qualität sicherstellt, die Unternehmen benötigen.

Er erklärte: „Wir haben für unsere Kunden konsequent 16-Bit-Präzision verwendet, da sie Qualität und eine Minimierung von Halluzinationen in den Ergebnissen priorisieren.“

Die Bedeutung der Geschwindigkeit für Unternehmensnutzer wächst, da Organisationen zunehmend KI-agentengetriebene Workflows übernehmen. Zudem bieten schnellere Generierungszeiten wirtschaftliche Vorteile.

„Je schneller wir Antworten generieren können, desto mehr Ressourcen stehen anderen zur Verfügung“, bemerkte er. „Letztendlich führt dies zu einer kompakteren Infrastruktur und Kostensenkungen.“

Most people like

Find AI tools in YBX