AI2s Neues Kosten-Effektives Modell: Offene und Leistungsstarke Lösungen für Alle

Home KI-Nachrichten AI2s Neues Kosten-Effektives Modell: Offene und Leistungsstarke Lösungen für Alle

Updated on September 9 2024

Das Allen Institute for AI (AI2) hat in Zusammenarbeit mit Contextual AI ein innovatives, Open-Source-basiertes großes Sprachmodell (LLM) namens OLMoE entwickelt. Dieses Modell zielt darauf ab, starke Leistung mit Kosteneffizienz zu vereinen.

OLMoE verwendet eine spärliche Mischung aus Experten (MoE) Architektur, die aus 7 Milliarden Parametern besteht, wobei für jedes Eingabewort nur 1 Milliarde Parameter aktiviert werden. Es gibt zwei Versionen: OLMoE-1B-7B für den allgemeinen Gebrauch und OLMoE-1B-7B-Instruct für die Feinabstimmung auf Anweisungen. Im Gegensatz zu vielen anderen MoE-Modellen ist OLMoE vollständig Open Source. AI2 hebt die Herausforderungen hervor, die mit dem Zugang zu anderen MoE-Modellen verbunden sind, da diese oft keine Transparenz hinsichtlich Trainingsdaten, Code oder Konstruktionsmethoden bieten. „Die meisten MoE-Modelle sind Closed Source und bieten nur eingeschränkte Einblicke in ihre Trainingsdaten oder Methoden, was die Entwicklung kosteneffizienter, offener MoEs behindert, die mit geschlossenen Modellen konkurrieren können“, erklärte AI2 in ihrer Veröffentlichung. Diese mangelnde Zugänglichkeit stellt eine erhebliche Barriere für Forscher und Akademiker dar.

Nathan Lambert, ein Forschungswissenschaftler bei AI2, bemerkte auf X (ehemals Twitter), dass OLMoE die Entwicklung von Richtlinien unterstützen könne und als grundlegendes Werkzeug dienen wird, während akademische H100-Cluster verfügbar werden. Er betonte das Engagement von AI2, wettbewerbsfähige Open-Source-Modelle herauszubringen und sagte: „Wir haben unsere Infrastruktur und Daten verbessert, ohne unsere Kernziele zu verändern. Dieses Modell ist wirklich auf dem neuesten Stand der Technik, nicht nur das Beste in ein paar Bewertungen.“

Entwicklung von OLMoE

Bei der Entwicklung von OLMoE verwendete AI2 einen fein abgestuften Routing-Ansatz mit 64 kleinen Experten, von denen jeweils nur acht aktiv sind. Diese Konfiguration erzielte eine Leistung, die mit anderen Modellen vergleichbar ist, senkte jedoch signifikant die Inferenzkosten und den Speicherbedarf. OLMoE baut auf dem vorherigen Open-Source-Modell von AI2, OLMO 1.7-7B, auf, das ein Kontextfenster von 4.096 Tokens unterstützte und ein Trainingsdatensatz namens Dolma 1.7 verwendete. Für das Training integrierte OLMoE einen vielfältigen Datensatz, der Teilmengen aus Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg und Wikipedia umfasst.

AI2 behauptet, dass OLMoE „alle bestehenden Modelle mit ähnlichen aktiven Parametern übertrifft, sogar größere wie Llama2-13B-Chat und DeepSeekMoE-16B.“ Benchmark-Ergebnisse zeigen, dass OLMoE-1B-7B oft eng mit Modellen konkurriert, die 7 Milliarden Parameter oder mehr haben, wie Mistral-7B, Llama 3.1-B und Gemma 2. In Tests gegen 1-Milliarde-Parameter-Modelle übertraf OLMoE-1B-7B signifikant andere Open-Source-Modelle, einschließlich Pythia, TinyLlama und sogar AI2s eigenes OLMO.

Das Argument für Open-Source-MoE

Die Mission von AI2 umfasst die Verbesserung des Zugangs zu vollständig Open-Source-AI-Modellen, insbesondere innerhalb der zunehmend populären MoE-Architektur. Viele Entwickler wenden sich MoE-Systemen zu, wie bei Mistrals Mixtral 8x22B und Grok von X.ai zu beobachten ist, wobei Spekulationen über die mögliche Verwendung von MoE in GPT-4 im Raum stehen. AI2 und Contextual AI weisen jedoch darauf hin, dass viele bestehende AI-Modelle umfassende Transparenz hinsichtlich ihrer Trainingsdaten und Codebasen vermissen lassen.

AI2 unterstreicht die Notwendigkeit der Offenheit bei MoE-Modellen, die spezifische Konstruktionsherausforderungen mit sich bringen, wie die Bestimmung des Verhältnisses von Gesamt- zu aktiven Parametern, die Entscheidung zwischen zahlreichen kleinen Experten oder weniger großen, die gemeinsame Nutzung von Experten und die Auswahl geeigneter Routing-Algorithmen. Darüber hinaus behandelt die Open Source Initiative aktiv, was Offenheit für AI-Modelle bedeutet, und betont die Bedeutung von Transparenz zur Förderung des Fortschritts in diesem Bereich.

ServiceNow bringt anpassbare Enterprise-AI-Agentenbibliothek heraus, die auf Ihre Workflow-Anforderungen zugeschnitten ist.

LightEval: Ein Open-Source-Tool von Hugging Face zur Verbesserung der KI-Verantwortlichkeit

Most people like

PhotoAI

83.8K

Verleihen Sie Ihren Fotos atemberaubende, KI-generierte visuelle Effekte. Entdecken Sie, wie Sie alltägliche Bilder in fesselnde Kunstwerke verwandeln, die auffallen.

Foto- und Profilbildgenerierung AI Avatar Generator

Gladia

177.3K

Revolutionäre KI-gestützte Transkription, Übersetzung und Audio-Intelligenz-Verbesserungen.

Spracherkennung AI Product Description Generator

AI Detect

43.4K

Die Erkennung der Wahrscheinlichkeit, dass ein Text von KI verfasst wurde, gewinnt zunehmend an Bedeutung, da sich die Werkzeuge der künstlichen Intelligenz weiterentwickeln. Indem wir lernen, KI-generierte Texte zu identifizieren, können wir unsere Fähigkeit verbessern, authentischen menschlichen Ausdruck von maschinell erzeugtem Inhalt zu unterscheiden. Dieser Leitfaden wird effektive Strategien und Methoden untersuchen, um die Wahrscheinlichkeit zu bewerten, dass ein Text von KI erstellt wurde, und Ihnen die Fähigkeiten an die Hand geben, um sich in diesem sich schnell verändernden Umfeld zurechtzufinden. Egal, ob Sie ein Inhaltsersteller, Pädagoge oder einfach nur neugierig sind, diese Erkenntnisse werden Sie dazu befähigen, die Informationen, die Sie konsumieren, kritisch zu bewerten.

AI-Inhaltsdetektor AI Detector

Mintlify

137.4K

Faszinierende Dokumentation, die Benutzer fesselt und ihr Erlebnis bereichert.

Dokumentation AI Developer Docs

Find AI tools in YBX