SambaNova stellt neuen Geschwindigkeitsrekord für Llama 3 mit 1.000 Tokens pro Sekunde auf

Home KI-Nachrichten SambaNova stellt neuen Geschwindigkeitsrekord für Llama 3 mit 1.000 Tokens pro Sekunde auf

Es gibt keinen einheitlichen Geschwindigkeitsmesser zur Bewertung der Leistung von generativen KI-Modellen, doch eine wichtige Kennzahl ist die Anzahl der verarbeiteten Tokens pro Sekunde. Heute gab SambaNova Systems einen bedeutenden Fortschritt in der Leistung generativer KI bekannt: Mit dem Llama 3 8B-Parameter-Modell wurde eine beeindruckende Geschwindigkeit von 1.000 Tokens pro Sekunde erreicht. Der vorherige schnellste Benchmark für Llama 3 lag bei 800 Tokens pro Sekunde und wurde von Groq gehalten. Dieser neue Meilenstein wurde unabhängig von der Testfirma Artificial Analysis verifiziert. Die erhöhte Verarbeitungsgeschwindigkeit hat erhebliche Auswirkungen auf Unternehmen und könnte zu schnelleren Reaktionszeiten, besserer Hardware-Nutzung und reduzierten Betriebskosten führen.

Ein Wettlauf um die KI-Leistung

„Wir erleben eine Beschleunigung im Wettlauf um KI-Chips, die unsere Erwartungen übersteigt. Wir waren begeistert, die Ansprüche von SambaNova mit unabhängigen Benchmarks zur realen Leistung zu bestätigen“, sagte George Cameron, Mitgründer von Artificial Analysis. „KI-Entwickler haben jetzt eine größere Auswahl an Hardware-Optionen, was besonders vorteilhaft für geschwindigkeitsabhängige Anwendungen wie KI-Agenten und KI-Lösungen für Verbraucher ist, die minimale Reaktionszeiten und eine effiziente Dokumentenverarbeitung erfordern.“

Wie SambaNova Llama 3 und generative KI beschleunigt

SambaNova hat sich der Entwicklung von generativen KI-Lösungen für Unternehmen verschrieben, die sowohl Hardware- als auch Softwarefähigkeiten umfassen.

Auf der Hardware-Seite hat das Unternehmen einen einzigartigen KI-Chip entwickelt, bekannt als Reconfigurable Dataflow Unit (RDU). Ähnlich wie die KI-Beschleuniger von Nvidia sind RDUs sowohl für das Training als auch für die Inferenz geeignet und verbessern gezielt Unternehmenslasten und Modellanpassungen. Das neueste Modell, der SN40L, wurde im September 2023 vorgestellt.

SambaNova bietet außerdem einen eigenen Software-Stack, der das Samba-1-Modell umfasst, das am 28. Februar gestartet wurde. Dieses Modell mit 1 Billion Parametern wird als Samba-CoE (Combination of Experts) bezeichnet, wodurch Unternehmen mehrere Modelle separat oder in Kombination nutzen können, individuell angepasst an ihre Datenbedarfe.

Für die Geschwindigkeit von 1.000 Tokens pro Sekunde verwendete SambaNova sein Samba-1 Turbo-Modell, eine API-Version, die für Tests zur Verfügung gestellt wurde. Das Unternehmen plant, diese Geschwindigkeitsoptimierungen bald in sein Hauptunternehmensmodell zu integrieren. Cameron merkte jedoch an, dass Groqs Messung von 800 Tokens pro Sekunde sich auf seinen öffentlichen API-Endpunkt bezieht, während die Ergebnisse von SambaNova von einem speziellen privaten Endpunkt stammen, was direkte Vergleiche erschwert.

„Dennoch übertrifft diese Geschwindigkeit die 8-fache Medianproduktion anderer API-Anbieter, die wir benchmarkten, und ist mehrere Male schneller als die typischen Ausgaberaten auf Nvidia H100s“, sagte Cameron.

Reconfigurable Dataflow für verbesserte Leistung

Die Leistung von SambaNova basiert auf seiner reconfigurable Dataflow-Architektur, die zentral für die RDU-Technologie ist. Diese Architektur ermöglicht eine optimierte Ressourcenallokation über die Schichten und Kerne neuronaler Netzwerke durch Compiler-Zuweisungen.

„Mit Dataflow können wir die Modellenzuweisungen kontinuierlich verfeinern, da es vollständig konfigurierbar ist“, sagte Rodrigo Liang, CEO und Gründer von SambaNova. „Das führt nicht nur zu inkrementellen Verbesserungen, sondern auch zu erheblichen Effizienz- und Leistungssteigerungen, während sich die Software weiterentwickelt.“

Ursprünglich erzielte Liangs Team bei der Veröffentlichung von Llama 3 eine Leistung von 330 Tokens pro Sekunde auf Samba-1. Durch umfangreiche Optimierungen in den vergangenen Monaten hat sich diese Geschwindigkeit nun auf 1.000 Tokens pro Sekunde verdreifacht. Liang erklärte, dass Optimierung den Ausgleich der Ressourcennutzung unter den Kernen umfasst, um Engpässe zu vermeiden und die Gesamtproduktivität im neuronalen Netzwerk-Pipeline zu maximieren, was dem Ansatz in SambaNovas Software-Stack ähnelt, um Unternehmen bei ihren Anpassungsbemühungen zu unterstützen.

Qualität auf Unternehmensniveau und höhere Geschwindigkeit

Liang betonte, dass SambaNova diese Geschwindigkeitsmarke mit 16-Bit-Präzision erreicht, einem Standard, der die Qualität sicherstellt, die Unternehmen benötigen.

Er erklärte: „Wir haben für unsere Kunden konsequent 16-Bit-Präzision verwendet, da sie Qualität und eine Minimierung von Halluzinationen in den Ergebnissen priorisieren.“

Die Bedeutung der Geschwindigkeit für Unternehmensnutzer wächst, da Organisationen zunehmend KI-agentengetriebene Workflows übernehmen. Zudem bieten schnellere Generierungszeiten wirtschaftliche Vorteile.

„Je schneller wir Antworten generieren können, desto mehr Ressourcen stehen anderen zur Verfügung“, bemerkte er. „Letztendlich führt dies zu einer kompakteren Infrastruktur und Kostensenkungen.“

Kinetix und Overdare stärken Gamer mit innovativen generativen KI-Tools.

PwC kooperiert mit OpenAI: Erster Wiederverkäufer von ChatGPT Enterprise-Lösungen

Most people like

Read

1.8M

Präsentation von Read: Ihr Partner für die Verbesserung des Meeting-Wellness durch intelligente Planung, umfassende Analysen, prägnante Zusammenfassungen und maßgeschneiderte Empfehlungen! Erleben Sie einen revolutionären Ansatz für Meetings, der Produktivität und Wohlbefinden in den Vordergrund stellt.

automatisierte Besprechungsprotokolle AI Meeting Assistant

AI Detect

43.4K

Die Erkennung der Wahrscheinlichkeit, dass ein Text von KI verfasst wurde, gewinnt zunehmend an Bedeutung, da sich die Werkzeuge der künstlichen Intelligenz weiterentwickeln. Indem wir lernen, KI-generierte Texte zu identifizieren, können wir unsere Fähigkeit verbessern, authentischen menschlichen Ausdruck von maschinell erzeugtem Inhalt zu unterscheiden. Dieser Leitfaden wird effektive Strategien und Methoden untersuchen, um die Wahrscheinlichkeit zu bewerten, dass ein Text von KI erstellt wurde, und Ihnen die Fähigkeiten an die Hand geben, um sich in diesem sich schnell verändernden Umfeld zurechtzufinden. Egal, ob Sie ein Inhaltsersteller, Pädagoge oder einfach nur neugierig sind, diese Erkenntnisse werden Sie dazu befähigen, die Informationen, die Sie konsumieren, kritisch zu bewerten.

AI-Inhaltsdetektor AI Detector

PixCleaner

66.9K

PixCleaner ist ein kostenloses Online-Tool, das von KI unterstützt wird und entwickelt wurde, um mühelos Hintergründe von Bildern zu entfernen und Ihre Produktfotos zu optimieren. Mit seiner benutzerfreundlichen Oberfläche macht PixCleaner die Bildbearbeitung einfach und effektiv, damit Ihre visuellen Inhalte herausstechen.

Andere AI Background Remover

Happy Scribe

2.2M

Verwandeln Sie Ihr Audio in Text und fügen Sie mühelos präzise Untertitel hinzu. Erleben Sie hochwertige Transkriptionsdienste, die darauf ausgelegt sind, die Zugänglichkeit und das Engagement Ihres Publikums zu steigern.

Transkription Speech-to-Text

Find AI tools in YBX