Ein neues maschinelles Lernmodell, das von Forschern bei Meta und der University of Southern California entwickelt wurde, adressiert zentrale Herausforderungen der Transformer-Architektur, die entscheidend für den Fortschritt großer Sprachmodelle (LLMs) war. Das Modell, Megalodon genannt, erweitert das Kontextfenster auf Millionen von Token und minimiert gleichzeitig den Speicherbedarf. Experimentelle Ergebnisse zeigen, dass Megalodon vergleichbare Transformer-Modelle bei der Verarbeitung umfangreicher Texte übertrifft, was es als potenziellen Nachfolger der Transformer-Architektur positioniert.
Verständnis der Kontextfenster
Das "Kontextfenster" beschreibt die Anzahl der Token, die ein Modell gleichzeitig verarbeiten kann. Ein größeres Kontextfenster verbessert die Fähigkeit des LLM, längere Gespräche zu führen, umfangreiche Dokumente zu analysieren und das Lernen im Kontext zu optimieren. Die Erhöhung des Kontextfensters eines Transformers führt jedoch zu erheblichen Rechenkosten. Transformer arbeiten mit "quadratischer Komplexität", was bedeutet, dass sich bei Verdopplung der Eingabegröße sowohl der Speicher- als auch die Rechenzeit vervierfachen. Diese Beziehung ergibt sich aus dem Selbstaufmerksamkeitsmechanismus, bei dem jedes Element der Eingabesequenz mit jedem anderen verglichen wird.
Metas Megalodon basiert auf der 2022 eingeführten Methode der Moving Average Equipped Gated Attention (MEGA), die den Aufmerksamkeitsmechanismus optimiert und die Komplexität des Modells erheblich reduziert. Dies ermöglicht es dem LLM, längere Eingaben zu verarbeiten, ohne übermäßige Speicherkapazitäten zu beanspruchen. MEGA integriert exponentielle gleitende Durchschnitte (EMA), um die Bedeutung lokaler und langfristiger Token-Beziehungen in Einklang zu bringen und die Kohärenz beim Ausbau des Kontexts zu gewährleisten.
Wesentliche Innovationen in Megalodon
Megalodon verbessert MEGA durch mehrere architektonische Anpassungen, die seine Leistung mit dem traditionellen vollen Aufmerksamkeitsmechanismus von Transformern in Einklang bringen. Es verwendet "Chunk-wise Attention", bei dem Eingabesequenzen in feste Blöcke aufgeteilt werden, wodurch die Komplexität von quadratisch auf linear reduziert wird. Dieser Ansatz ermöglicht auch zusätzliches Parallelisieren und beschleunigt das Training des Modells.
Die Forscher trainierten eine 7-Milliarden-Parameter-Version von Megalodon mit 2 Billionen Token und benchmarkten sie gegen die Modelle Llama-2-7B und 13B. Die Ergebnisse zeigen, dass Megalodon-7B die Spitzenleistungen der Transformer, die für das Training von Llama-2-7B verwendet wurden, sowohl in der Trainingsperplexität als auch in verschiedenen nachgelagerten Aufgaben übertrifft. In einigen Fällen erreicht es sogar die Leistung von Llama-2-13B.
Obwohl Megalodon ein Kontextfenster von 4.000 Token bei etwas langsamerer Geschwindigkeit als Llama-2 beibehält, übertrifft es mit einer Kontextlänge von 32.000 Token dank verbesserter Recheneffizienz deutlich. Erste experimentelle Ergebnisse deuten darauf hin, dass Megalodon effektiv Sequenzen unbegrenzter Längen modellieren kann. Das Forschungsteam hat auch vielversprechende Ergebnisse in kleineren Experimenten mit verschiedenen Datenmodi erzielt und plant, Megalodon für multimodale Anwendungen anzupassen. Der Megalodon-Code ist auf GitHub unter einer MIT-Lizenz verfügbar, die eine uneingeschränkte Anpassung und kommerzielle Nutzung erlaubt.
Die Dominanz der Transformer
Trotz der fortdauernden Forschung an alternativen Architekturen, wie Mamba (kommerziell genutzt von AI21 Labs) und flüssigen neuronalen Netzwerken, die am MIT entwickelt wurden, bleiben Transformer die führende Architektur für Sprachmodelle. Meta setzt weiterhin auf Innovation mit Modellen wie Megalodon und verbessert gleichzeitig seine Transformer-Produktlinie, einschließlich der kürzlich veröffentlichten Llama-3.
Die Anpassung neuer Architekturen, um die umfangreiche Ecosystem von Tools und Bibliotheken für Transformer zu nutzen, stellt eine Herausforderung dar. Diese Tools erleichtern das Training, die Feinabstimmung und die Optimierung von Modellen für verschiedene Anwendungen und Geräte und verschaffen Transformers einen beständigen Vorteil. Forscher arbeiten auch daran, die Transformer-Architektur zu modifizieren, um ihre Rechenanforderungen zu verringern. Zum Beispiel zielt Googles Infini-Attention darauf ab, unbegrenzte Kontextfenster zu unterstützen, ohne den Speicherbedarf zu erhöhen, wobei aktuelle Modelle Eingaben von Hunderttausenden von Token verarbeiten können.
Da sich die KI-Forschung rasch weiterentwickelt, ist es wichtig zu erkennen, dass die Landschaft dynamisch ist. Als der Transformer 2017 eingeführt wurde, glaubten nur wenige an seinen tiefgreifenden Einfluss. Zukünftige Modelle könnten die Fähigkeiten von Transformern möglicherweise übertreffen.