SambaNova Systems hat möglicherweise eines der größten großen Sprachmodelle (LLMs) der Welt vorgestellt: das eins billionen Parameter umfassende Samba-1. Im Gegensatz zu OpenAI's GPT-4 handelt es sich bei Samba-1 nicht um ein einzelnes Modell, sondern um die Integration von über 50 hochwertigen KI-Modellen durch die sogenannte Composition of Experts-Architektur. Dies ermöglicht eine Anpassung und Optimierung für spezifische Unternehmensanwendungen.
Im September kündigte SambaNova seinen SN40L KI-Chip an, der darauf abzielt, mit Nvidia zu konkurrieren, indem er eine effiziente Trainings- und Inferenzlösung bietet. Das Samba-1-Modell wird Teil der SambaNova Suite, die es Organisationen ermöglicht, Modelle effektiv anzupassen und bereitzustellen.
Rodrigo Liang, Mitgründer und CEO von SambaNova, betonte den Wert vorgefertigter, vortrainierter und optimierter Modelle. Diese Eigenschaften ermöglichen es Unternehmen, leistungsstarke Einsätze ohne umfangreiche Feinabstimmungen zu erreichen, die normalerweise erforderlich sind.
Wie Samba-1 die Composition of Experts nutzt, um ein massives LLM aufzubauen
Samba-1 besteht aus über 50 individuell trainierten KI-Modellen, die auf Kohärenz optimiert sind. Dazu gehören sowohl proprietäre Modelle von SambaNova als auch kuratierte Open-Source-Modelle, die für spezifische Aufgaben geeignet sind, wie Llama 2, Mistral, DeepSeek Coder, Falcon, DePlot, CLIP und Llava.
„Wir haben die besten Modelle ausgewählt, optimiert und zu einem einzigen Modell mit einer Billion Parametern kombiniert“, erklärte Liang. Die Modelle innerhalb von Samba-1 können nahtlos interagieren, sodass die Antworten eines Modells als Eingaben für andere dienen können.
Das Verknüpfen von LLMs zur Ableitung von Ausgaben ist nicht neu; beliebte Open-Source-Technologien wie LangChain verfolgen diesen Ansatz. Liang behauptet jedoch, dass der Composition of Experts-Ansatz von Samba-1 erheblich Vorteile bietet. Im Gegensatz zu LangChain, wo Benutzer Modellketten vorab definieren müssen, können die Experten von Samba-1 dynamisch basierend auf Eingabeaufforderungen und Antworten verbunden werden, was die Flexibilität fördert.
Darüber hinaus ermöglicht Samba-1 Nutzern, verschiedene Perspektiven zu gewinnen, indem es auf Modelle zurückgreift, die auf unterschiedlichen Datensätzen trainiert wurden. „Es kann dynamisch 50 LangChain-Äquivalente erstellen, um vielfältige Ergebnisse zu erkunden“, bemerkte er.
Composition of Experts vs. Mixture of Experts
Es ist wichtig, den Composition of Experts-Ansatz vom Mixture of Experts-Ansatz zu unterscheiden, der von einigen LLMs wie Mistral verwendet wird. Liang erklärte, dass ein Mixture of Experts-Modell ein einzelnes Modell verwendet, das auf mehreren Datensätzen trainiert wird, was potenziell ein Risiko für den Datenschutz darstellt.
Im Gegensatz dazu erhält die Composition of Experts die Sicherheit jedes Modells, indem diese auf separaten, sicheren Datensätzen trainiert werden. Dieser Ansatz gewährleistet, dass die Sicherheitsprotokolle während des Trainings auch für die Bereitstellung und Inferenz gelten.
Maßgeschneiderte Lösungen über eine Billion Parameter
Obwohl Samba-1 eine Billion Parameter umfasst, benötigen Organisationen nicht immer diese Größenordnung für ihre Einsätze. Durch die Nutzung mehrerer spezialisierter Modelle bietet Samba-1 breite Fähigkeiten effizienter an.
„Nicht jeder Prompt erfordert die Aktivierung aller eine Billion Parameter auf einmal“, erklärte Liang. Dies führt zu verbesserter Effizienz, reduziertem Energie- und Bandbreitenverbrauch sowie einem geringeren betrieblichen Fußabdruck, da nur der benötigte Experte aktiviert wird.
SambaNova ermöglicht es Kunden, Modelle auf ihren proprietären Daten zu trainieren, sodass Unternehmen einzigartige, optimierte Vermögenswerte entwickeln können. „Mit Samba-1 können Sie Ihr eigenes privates Modell mit einer Billion Parametern haben, und sobald es auf Ihren Daten trainiert ist, gehört es Ihnen auf unbestimmte Zeit“, sagte Liang.