Revolutionäre Transformer-Architektur: Leistungsstarke LLMs ohne GPUs freischalten

Matrixmultiplikationsfreie Sprachmodelle: Ein Durchbruch in der Effizienz

Matrixmultiplikationen (MatMul) gehören zu den rechenintensivsten Operationen in großen Sprachmodellen (LLMs), die auf der Transformer-Architektur basieren. Mit wachsender Modellgröße steigen die Kosten für MatMul-Operationen erheblich, was zu erhöhtem Speicherbedarf und längeren Latenzzeiten während Training und Inferenz führt.

Forscher der University of California, Santa Cruz, der Soochow University und der University of California, Davis, haben eine innovative Architektur entwickelt, die Matrixmultiplikationen aus Sprachmodellen entfernt und gleichzeitig eine robuste Leistung im großen Maßstab bietet.

Einführung matMul-freier Sprachmodelle

In ihrer bahnbrechenden Arbeit präsentieren die Forscher matMul-freie Sprachmodelle, die die Leistung modernster Transformer erreichen und dabei deutlich weniger Speicher während der Inferenz benötigen.

Matrixmultiplikation in Deep Learning verstehen

Die Matrixmultiplikation ist im Deep Learning entscheidend, um Daten mit Gewichten in neuronalen Netzen zu kombinieren und um Eingabedaten zur Generierung von Vorhersagen zu transformieren. GPUs sind aufgrund ihrer parallelen Architektur besonders gut darin, zahlreiche MatMul-Operationen gleichzeitig auszuführen, was für das effiziente Training und die Bereitstellung komplexer Modelle unerlässlich ist.

Trotz dieses Vorteils werden MatMul-Operationen bei LLMs mit Hunderten von Milliarden von Parametern zu Engpässen, die massive GPU-Cluster für Training und Inferenz erfordern. Ein Umstieg von MatMul könnte erhebliche Einsparungen bei Speicher und Berechnung ermöglichen. Frühere Versuche, MatMul-Operationen zu ersetzen, erzielten jedoch inkonsistente Ergebnisse und verlangsamten oft Prozesse aufgrund suboptimaler Leistung auf GPUs.

Revolutionierung der Operationen mit ternären Gewichten

Die Forscher schlagen eine aufregende Alternative vor: den Austausch traditioneller 16-Bit-Gleitkomma-Gewichte in Transformatoren durch 3-Bit-ternäre Gewichte, die drei Zustände (-1, 0 und +1) repräsentieren können. Sie führen additive Operationen ein, um MatMul zu ersetzen, was zu erheblichen Reduzierungen der Rechenkosten führt. Ihre Modelle verwenden „BitLinear-Schichten“, die diese ternären Gewichte nutzen.

„Durch die Einschränkung der Gewichte auf die Menge {−1, 0, +1} und zusätzliche Quantisierungstechniken haben wir MatMul durch Additions- und Negationsoperationen ersetzt“, erklärt das Forscherteam.

Innovative architektonische Veränderungen

Die Architektur unterscheidet sich grundlegend von traditionellen Transformatoren, die aus Token- und Kanal-Mixern bestehen. Der Token-Mixer, der für die Integration von Informationen über Sequenz-Token mithilfe von Selbst-Achten-Mechanismen verantwortlich ist, wechselt zu einer matMul-freien linearen Gated Recurrent Unit (MLGRU). Die MLGRU verarbeitet Token, indem sie versteckte Zustände durch einfache ternäre Operationen aktualisiert und somit teure Matrixmultiplikationen umgeht.

Darüber hinaus nutzt der Kanal-Mixer, der Informationen über verschiedene Merkmalskanäle der Darstellung eines Tokens integriert, eine modifizierte Gated Linear Unit (GLU), die ternäre Gewichte unterstützt. Diese Anpassung minimiert die Rechenkomplexität und den Speicherbedarf, während die effektive Merkmalsintegration erhalten bleibt.

„Durch die Kombination des MLGRU-Token-Mixers mit dem GLU-Kanal-Mixer unter Verwendung ternärer Gewichte basiert unsere Architektur ausschließlich auf Addition und elementweisen Produkten“, bemerken die Forscher.

Leistungsbewertung matMul-freier Sprachmodelle

Die Forscher vergleichen ihre matMul-freien LMs mit der fortschrittlichen Transformer++-Architektur, die in Llama-2 verwendet wird, über verschiedene Modellgrößen. Ihre Ergebnisse zeigen, dass das matMul-freie LM zusätzliche Rechenressourcen besser nutzt, um die Leistung im Vergleich zu Transformer++ zu steigern.

Bei der Bewertung sprachlicher Aufgaben übertraf das 2,7B matMul-freie LM die Leistung seines Transformer++-Gegenstücks bei Benchmarks wie ARC-Challenge und OpenbookQA, während es in anderen Aufgaben vergleichbare Ergebnisse erzielte.

„Diese Ergebnisse zeigen, dass matMul-freie Architekturen starke Zero-Shot-Leistungen über verschiedene Sprachaufgaben, einschließlich Fragebeantwortung und Alltagswissen, liefern können“, betonen die Forscher.

Der niedrigere Speicherverbrauch und die reduzierte Latenz für matMul-freie LMs werden mit zunehmender Modellgröße deutlicher. Beispielsweise benötigt das 13B Modell nur 4,19 GB GPU-Speicher mit einer Latenz von 695,48 ms, während der Transformer++ 48,50 GB bei einer Latenz von 3183,10 ms verlangt.

Optimierte Implementierungen und zukünftige Richtungen

Die Forscher entwickelten eine optimierte GPU-Implementierung und eine spezielle FPGA-Konfiguration für matMul-freie Sprachmodelle. Mit dieser Optimierung erzielten sie eine Beschleunigung von 25,6% im Training und eine Reduktion des Speicherbedarfs um bis zu 61,0% im Vergleich zu einer unoptimierten Basislinie.

„Diese Arbeit geht über softwarebasierte Implementierungen leichter Modelle hinaus und zeigt, dass skalierbare und effiziente Sprachmodelle die Rechenanforderungen und den Energieverbrauch effektiv reduzieren können“, schlussfolgern die Forscher.

Obwohl Einschränkungen die Tests an Modellen mit mehr als 100 Milliarden Parametern begrenzten, hoffen die Forscher, Institutionen zu ermutigen, in leichte Modelle zu investieren, um den Weg für zugänglichere Sprachmodelle unabhängig von Hochleistungs-GPUs zu ebnen. Die Forscher haben ihren Code und ihre Modelle der Forschungscommunity zur Verfügung gestellt.

„Durch die Priorisierung der Entwicklung matMul-freier Architekturen wird die Zukunft der LLMs in Richtung größerer Zugänglichkeit, Effizienz und Nachhaltigkeit tendieren“, betonen die Forscher.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles