In einer aktuellen Studie schlagen Forscher von Meta, Ecole des Ponts ParisTech und Université Paris-Saclay einen neuen Ansatz vor, um die Genauigkeit und Geschwindigkeit großer KI-Sprachmodelle (LLMs) zu verbessern, indem sie diesen ermöglichen, mehrere Tokens gleichzeitig vorherzusagen. Diese Innovation stellt die traditionelle autoregressive Modellarchitektur in Frage, die nur ein Token nach dem anderen vorhersagt.
Die Vorteile der Mehrtoken-Vorhersage
Obwohl die Mehrtoken-Vorhersage nicht für jedes LLM oder jede Sprachaufgabe geeignet ist, bietet sie in bestimmten Szenarien erhebliche Vorteile, wie zum Beispiel eine Beschleunigung generativer Aufgaben mit Geschwindigkeiten, die bis zu dreimal schneller sind als herkömmliche Methoden. Diese Technik könnte in bestimmten LLM-Anwendungen als leistungsstarkes Werkzeug dienen, auch wenn noch Raum für Verfeinerungen besteht.
Herausforderungen der nächsten Token-Vorhersage
Das traditionelle Training von LLMs basiert auf der "nächsten Token-Vorhersage." Diese selbstüberwachende Lerntechnik beinhaltet die Präsentation einer Token-Sequenz, wobei das Modell aufgefordert wird, das nächste Token vorherzusagen, das dann für weitere Vorhersagen zum Input hinzugefügt wird. Dieser iterative Ansatz, der auf umfangreiche Textkorpora angewandt wird, ermöglicht es dem Modell, kohärente Texte zu generieren.
Forscher haben jedoch Einschränkungen der nächsten Token-Vorhersage bei der Entwicklung von Sprachverarbeitung, Wissensaufnahme und Fähigkeiten zur Schlussfolgerung identifiziert. Indem sich Modelle nur auf ein Token konzentrieren, laufen sie Gefahr, überempfindlich auf lokale Muster zu reagieren und möglicherweise das erforderliche breitere Kontextverständnis zu vernachlässigen. Zudem fordert die nächste Token-Vorhersage große Datensätze, um die Flüssigkeitsgrade zu erreichen, die Menschen mit weniger Text erzielen.
Die Studie von Meta zeigt, dass „das Training von Sprachmodellen zur gleichzeitigen Vorhersage mehrerer zukünftiger Tokens zu einer höheren Probeneffizienz führt.“
Erforschung der Mehrtoken-Vorhersage
Im Gegensatz dazu leitet die Mehrtoken-Vorhersage das LLM an, mehrere zukünftige Tokens an jeder Stelle der Trainingsdaten gleichzeitig vorherzusagen. Die Forscher stellen eine einfache Architektur für die Mehrtoken-Vorhersage vor, die keine zusätzlichen Trainingszeiten oder Speicheranforderungen mit sich bringt. Dieses Modell basiert auf der etablierten Transformer-Architektur, die die Grundlage für die meisten LLMs bildet, jedoch mit Modifikationen. Anstelle einer einzelnen Ausgabe umfasst es mehrere unabhängige Ausgabeköpfe für jede Token-Vorhersage.
Implementierung der Mehrtoken-Vorhersage
Während der Inferenz verwendet das Modell die traditionelle Methode der nächsten Token-Vorhersage für jeden Ausgabekopf und nutzt die zusätzlichen Köpfe, um den Dekodierungsprozess zu optimieren. Das Framework greift dabei auf frühere Arbeiten in diesem Bereich zurück.
„Obwohl kosteneffektiv und einfach, verbessert die Mehrtoken-Vorhersage signifikant das Training schnellerer, leistungsfähigerer Transformer-Modelle“, erklären die Forscher.
Ergebnisse und Beobachtungen
Das Team testete ihre Strategie zur Mehrtoken-Vorhersage mit Modellen, die von 300 Millionen bis 13 Milliarden Parametern reichen. Ihre Ergebnisse zeigen bemerkenswerte Muster: Kleinere Modelle profitieren weniger von der Mehrtoken-Vorhersage, während diese mit steigender Modellgröße zunehmend effektiver wird. Modelle, die für die Vorhersage von 4 Tokens trainiert wurden, zeigten beispielsweise signifikante Leistungsverbesserungen von mehreren Prozentpunkten gegenüber Ein-Token-Vorhersagen auf dem MBPP-Coding-Benchmark.
Die Forscher kommen zu dem Schluss, dass es möglich ist, unter Verwendung derselben Rechenressourcen eine bessere Leistung großer Sprachmodelle durch Mehrtoken-Vorhersage zu erreichen. Darüber hinaus verbessert die Mehrtoken-Vorhersage die Inferenzgeschwindigkeiten, was Modelle bis zu dreimal schneller macht, unabhängig von der Batch-Größe. „Das Vortraining mit Mehrtoken-Vorhersage verbessert die Genauigkeit zusätzlicher Köpfe im Vergleich zum bloßen Feintuning eines nächsten Token-Vorhersagemodells und entfaltet das volle Potenzial des selbst-spekulativen Dekodierens“, erläutern sie.
Die Studie hebt zudem hervor, dass die Mehrtoken-Vorhersage das Modell dazu anregt, langfristige Muster zu lernen, insbesondere in Experimenten mit „Byte-Level-Tokenisierung“, wo jedes Byte als einzelnes Token behandelt wird. In diesen Fällen übertraf die Multi-Byte-Vorhersage signifikant die Baseline der Single-Byte-Modelle, was für Anwendungen ohne vordefinierten Wortschatz entscheidend ist.
Zukünftige Forschungsrichtungen
Trotz ihrer Vorteile ist die Mehrtoken-Vorhersage nicht ohne Herausforderungen. Die optimale Anzahl an vorherzusagenden Tokens variiert je nach Aufgabe und Modellgröße. Die Forscher erkunden zukünftige Forschungsansätze, einschließlich automatisierter Techniken zur Identifizierung der besten Anzahl an vorherzusagenden Tokens und der Dynamiken zwischen Vokabelgrößen und Mehrtoken-Strategien.
Diese Forschung birgt vielversprechendes Potenzial für Unternehmensanwendungen und könnte verbesserte Inferenzgeschwindigkeiten sowie eine höhere Genauigkeit in generativen Aufgaben wie die Code-Vervollständigung bieten – ohne größere Änderungen an der bestehenden LLM-Architektur, wodurch die Kompatibilität mit anderen Optimierungstechniken innerhalb des Transformer-Frameworks gewährleistet bleibt.