AI2s Neues Kosten-Effektives Modell: Offene und Leistungsstarke Lösungen für Alle

Das Allen Institute for AI (AI2) hat in Zusammenarbeit mit Contextual AI ein innovatives, Open-Source-basiertes großes Sprachmodell (LLM) namens OLMoE entwickelt. Dieses Modell zielt darauf ab, starke Leistung mit Kosteneffizienz zu vereinen.

OLMoE verwendet eine spärliche Mischung aus Experten (MoE) Architektur, die aus 7 Milliarden Parametern besteht, wobei für jedes Eingabewort nur 1 Milliarde Parameter aktiviert werden. Es gibt zwei Versionen: OLMoE-1B-7B für den allgemeinen Gebrauch und OLMoE-1B-7B-Instruct für die Feinabstimmung auf Anweisungen. Im Gegensatz zu vielen anderen MoE-Modellen ist OLMoE vollständig Open Source. AI2 hebt die Herausforderungen hervor, die mit dem Zugang zu anderen MoE-Modellen verbunden sind, da diese oft keine Transparenz hinsichtlich Trainingsdaten, Code oder Konstruktionsmethoden bieten. „Die meisten MoE-Modelle sind Closed Source und bieten nur eingeschränkte Einblicke in ihre Trainingsdaten oder Methoden, was die Entwicklung kosteneffizienter, offener MoEs behindert, die mit geschlossenen Modellen konkurrieren können“, erklärte AI2 in ihrer Veröffentlichung. Diese mangelnde Zugänglichkeit stellt eine erhebliche Barriere für Forscher und Akademiker dar.

Nathan Lambert, ein Forschungswissenschaftler bei AI2, bemerkte auf X (ehemals Twitter), dass OLMoE die Entwicklung von Richtlinien unterstützen könne und als grundlegendes Werkzeug dienen wird, während akademische H100-Cluster verfügbar werden. Er betonte das Engagement von AI2, wettbewerbsfähige Open-Source-Modelle herauszubringen und sagte: „Wir haben unsere Infrastruktur und Daten verbessert, ohne unsere Kernziele zu verändern. Dieses Modell ist wirklich auf dem neuesten Stand der Technik, nicht nur das Beste in ein paar Bewertungen.“

Entwicklung von OLMoE

Bei der Entwicklung von OLMoE verwendete AI2 einen fein abgestuften Routing-Ansatz mit 64 kleinen Experten, von denen jeweils nur acht aktiv sind. Diese Konfiguration erzielte eine Leistung, die mit anderen Modellen vergleichbar ist, senkte jedoch signifikant die Inferenzkosten und den Speicherbedarf. OLMoE baut auf dem vorherigen Open-Source-Modell von AI2, OLMO 1.7-7B, auf, das ein Kontextfenster von 4.096 Tokens unterstützte und ein Trainingsdatensatz namens Dolma 1.7 verwendete. Für das Training integrierte OLMoE einen vielfältigen Datensatz, der Teilmengen aus Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg und Wikipedia umfasst.

AI2 behauptet, dass OLMoE „alle bestehenden Modelle mit ähnlichen aktiven Parametern übertrifft, sogar größere wie Llama2-13B-Chat und DeepSeekMoE-16B.“ Benchmark-Ergebnisse zeigen, dass OLMoE-1B-7B oft eng mit Modellen konkurriert, die 7 Milliarden Parameter oder mehr haben, wie Mistral-7B, Llama 3.1-B und Gemma 2. In Tests gegen 1-Milliarde-Parameter-Modelle übertraf OLMoE-1B-7B signifikant andere Open-Source-Modelle, einschließlich Pythia, TinyLlama und sogar AI2s eigenes OLMO.

Das Argument für Open-Source-MoE

Die Mission von AI2 umfasst die Verbesserung des Zugangs zu vollständig Open-Source-AI-Modellen, insbesondere innerhalb der zunehmend populären MoE-Architektur. Viele Entwickler wenden sich MoE-Systemen zu, wie bei Mistrals Mixtral 8x22B und Grok von X.ai zu beobachten ist, wobei Spekulationen über die mögliche Verwendung von MoE in GPT-4 im Raum stehen. AI2 und Contextual AI weisen jedoch darauf hin, dass viele bestehende AI-Modelle umfassende Transparenz hinsichtlich ihrer Trainingsdaten und Codebasen vermissen lassen.

AI2 unterstreicht die Notwendigkeit der Offenheit bei MoE-Modellen, die spezifische Konstruktionsherausforderungen mit sich bringen, wie die Bestimmung des Verhältnisses von Gesamt- zu aktiven Parametern, die Entscheidung zwischen zahlreichen kleinen Experten oder weniger großen, die gemeinsame Nutzung von Experten und die Auswahl geeigneter Routing-Algorithmen. Darüber hinaus behandelt die Open Source Initiative aktiv, was Offenheit für AI-Modelle bedeutet, und betont die Bedeutung von Transparenz zur Förderung des Fortschritts in diesem Bereich.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles