Metas Multi-Token-Vorhersage steigert die Geschwindigkeit von KI-Modellen um bis zu 3X.

Home KI-Nachrichten Metas Multi-Token-Vorhersage steigert die Geschwindigkeit von KI-Modellen um bis zu 3X.

In einer aktuellen Studie schlagen Forscher von Meta, Ecole des Ponts ParisTech und Université Paris-Saclay einen neuen Ansatz vor, um die Genauigkeit und Geschwindigkeit großer KI-Sprachmodelle (LLMs) zu verbessern, indem sie diesen ermöglichen, mehrere Tokens gleichzeitig vorherzusagen. Diese Innovation stellt die traditionelle autoregressive Modellarchitektur in Frage, die nur ein Token nach dem anderen vorhersagt.

Die Vorteile der Mehrtoken-Vorhersage

Obwohl die Mehrtoken-Vorhersage nicht für jedes LLM oder jede Sprachaufgabe geeignet ist, bietet sie in bestimmten Szenarien erhebliche Vorteile, wie zum Beispiel eine Beschleunigung generativer Aufgaben mit Geschwindigkeiten, die bis zu dreimal schneller sind als herkömmliche Methoden. Diese Technik könnte in bestimmten LLM-Anwendungen als leistungsstarkes Werkzeug dienen, auch wenn noch Raum für Verfeinerungen besteht.

Herausforderungen der nächsten Token-Vorhersage

Das traditionelle Training von LLMs basiert auf der "nächsten Token-Vorhersage." Diese selbstüberwachende Lerntechnik beinhaltet die Präsentation einer Token-Sequenz, wobei das Modell aufgefordert wird, das nächste Token vorherzusagen, das dann für weitere Vorhersagen zum Input hinzugefügt wird. Dieser iterative Ansatz, der auf umfangreiche Textkorpora angewandt wird, ermöglicht es dem Modell, kohärente Texte zu generieren.

Forscher haben jedoch Einschränkungen der nächsten Token-Vorhersage bei der Entwicklung von Sprachverarbeitung, Wissensaufnahme und Fähigkeiten zur Schlussfolgerung identifiziert. Indem sich Modelle nur auf ein Token konzentrieren, laufen sie Gefahr, überempfindlich auf lokale Muster zu reagieren und möglicherweise das erforderliche breitere Kontextverständnis zu vernachlässigen. Zudem fordert die nächste Token-Vorhersage große Datensätze, um die Flüssigkeitsgrade zu erreichen, die Menschen mit weniger Text erzielen.

Die Studie von Meta zeigt, dass „das Training von Sprachmodellen zur gleichzeitigen Vorhersage mehrerer zukünftiger Tokens zu einer höheren Probeneffizienz führt.“

Erforschung der Mehrtoken-Vorhersage

Im Gegensatz dazu leitet die Mehrtoken-Vorhersage das LLM an, mehrere zukünftige Tokens an jeder Stelle der Trainingsdaten gleichzeitig vorherzusagen. Die Forscher stellen eine einfache Architektur für die Mehrtoken-Vorhersage vor, die keine zusätzlichen Trainingszeiten oder Speicheranforderungen mit sich bringt. Dieses Modell basiert auf der etablierten Transformer-Architektur, die die Grundlage für die meisten LLMs bildet, jedoch mit Modifikationen. Anstelle einer einzelnen Ausgabe umfasst es mehrere unabhängige Ausgabeköpfe für jede Token-Vorhersage.

Implementierung der Mehrtoken-Vorhersage

Während der Inferenz verwendet das Modell die traditionelle Methode der nächsten Token-Vorhersage für jeden Ausgabekopf und nutzt die zusätzlichen Köpfe, um den Dekodierungsprozess zu optimieren. Das Framework greift dabei auf frühere Arbeiten in diesem Bereich zurück.

„Obwohl kosteneffektiv und einfach, verbessert die Mehrtoken-Vorhersage signifikant das Training schnellerer, leistungsfähigerer Transformer-Modelle“, erklären die Forscher.

Ergebnisse und Beobachtungen

Das Team testete ihre Strategie zur Mehrtoken-Vorhersage mit Modellen, die von 300 Millionen bis 13 Milliarden Parametern reichen. Ihre Ergebnisse zeigen bemerkenswerte Muster: Kleinere Modelle profitieren weniger von der Mehrtoken-Vorhersage, während diese mit steigender Modellgröße zunehmend effektiver wird. Modelle, die für die Vorhersage von 4 Tokens trainiert wurden, zeigten beispielsweise signifikante Leistungsverbesserungen von mehreren Prozentpunkten gegenüber Ein-Token-Vorhersagen auf dem MBPP-Coding-Benchmark.

Die Forscher kommen zu dem Schluss, dass es möglich ist, unter Verwendung derselben Rechenressourcen eine bessere Leistung großer Sprachmodelle durch Mehrtoken-Vorhersage zu erreichen. Darüber hinaus verbessert die Mehrtoken-Vorhersage die Inferenzgeschwindigkeiten, was Modelle bis zu dreimal schneller macht, unabhängig von der Batch-Größe. „Das Vortraining mit Mehrtoken-Vorhersage verbessert die Genauigkeit zusätzlicher Köpfe im Vergleich zum bloßen Feintuning eines nächsten Token-Vorhersagemodells und entfaltet das volle Potenzial des selbst-spekulativen Dekodierens“, erläutern sie.

Die Studie hebt zudem hervor, dass die Mehrtoken-Vorhersage das Modell dazu anregt, langfristige Muster zu lernen, insbesondere in Experimenten mit „Byte-Level-Tokenisierung“, wo jedes Byte als einzelnes Token behandelt wird. In diesen Fällen übertraf die Multi-Byte-Vorhersage signifikant die Baseline der Single-Byte-Modelle, was für Anwendungen ohne vordefinierten Wortschatz entscheidend ist.

Zukünftige Forschungsrichtungen

Trotz ihrer Vorteile ist die Mehrtoken-Vorhersage nicht ohne Herausforderungen. Die optimale Anzahl an vorherzusagenden Tokens variiert je nach Aufgabe und Modellgröße. Die Forscher erkunden zukünftige Forschungsansätze, einschließlich automatisierter Techniken zur Identifizierung der besten Anzahl an vorherzusagenden Tokens und der Dynamiken zwischen Vokabelgrößen und Mehrtoken-Strategien.

Diese Forschung birgt vielversprechendes Potenzial für Unternehmensanwendungen und könnte verbesserte Inferenzgeschwindigkeiten sowie eine höhere Genauigkeit in generativen Aufgaben wie die Code-Vervollständigung bieten – ohne größere Änderungen an der bestehenden LLM-Architektur, wodurch die Kompatibilität mit anderen Optimierungstechniken innerhalb des Transformer-Frameworks gewährleistet bleibt.

OpenAI kooperiert mit Stack Overflow zur Verbesserung von KI-Modellen für herausragende Programmierleistungen.

Nvidia und Alphabets Intrinsic werden die Zukunft der nächsten Generation von Robotik revolutionieren.

Most people like

POKY

156.8K

Importieren Sie ganz einfach Produkte aus verschiedenen Plattformen direkt in Ihren Online-Shop. Optimieren Sie Ihr Bestandsmanagement und verbessern Sie Ihr eCommerce-Erlebnis noch heute.

Produktimporteur E-commerce Assistant

Atheros

54.6K

AI-gesteuerte Produkte in Zusammenarbeit mit führenden Branchenexperten entwickeln.

Ingenieurwesen AI Product Description Generator

Hubtype

23.4K

Hubtype bietet eine hochmoderne Conversational-App-Plattform, die den automatisierten Kundenservice revolutioniert. Erleben Sie nahtlose Interaktionen und gesteigerte Effizienz im Kunden support mit unseren innovativen Lösungen.

Konversationsanwendungen AI Customer Service Assistant

AiReelGenerator

17.8K

Entdecken Sie, wie KI die Content-Erstellung revolutioniert, indem sie gesichtslose Videos für verschiedene Plattformen generiert. In dieser sich ständig weiterentwickelnden digitalen Landschaft bieten diese innovativen Werkzeuge den Kreativen eine aufregende Möglichkeit, Publikum zu fesseln und dabei Privatsphäre und Anonymität zu wahren. Erforschen Sie das Potenzial von KI-gesteuerten gesichtslosen Videos zur Verbesserung Ihrer Online-Präsenz in sozialen Medien, Marketing und mehr.

KI-gestützte Videoerstellung AI Content Generator

Find AI tools in YBX