Revolutionäre Transformer-Architektur: Leistungsstarke LLMs ohne GPUs freischalten

Home KI-Nachrichten Revolutionäre Transformer-Architektur: Leistungsstarke LLMs ohne GPUs freischalten

Matrixmultiplikationsfreie Sprachmodelle: Ein Durchbruch in der Effizienz

Matrixmultiplikationen (MatMul) gehören zu den rechenintensivsten Operationen in großen Sprachmodellen (LLMs), die auf der Transformer-Architektur basieren. Mit wachsender Modellgröße steigen die Kosten für MatMul-Operationen erheblich, was zu erhöhtem Speicherbedarf und längeren Latenzzeiten während Training und Inferenz führt.

Forscher der University of California, Santa Cruz, der Soochow University und der University of California, Davis, haben eine innovative Architektur entwickelt, die Matrixmultiplikationen aus Sprachmodellen entfernt und gleichzeitig eine robuste Leistung im großen Maßstab bietet.

Einführung matMul-freier Sprachmodelle

In ihrer bahnbrechenden Arbeit präsentieren die Forscher matMul-freie Sprachmodelle, die die Leistung modernster Transformer erreichen und dabei deutlich weniger Speicher während der Inferenz benötigen.

Matrixmultiplikation in Deep Learning verstehen

Die Matrixmultiplikation ist im Deep Learning entscheidend, um Daten mit Gewichten in neuronalen Netzen zu kombinieren und um Eingabedaten zur Generierung von Vorhersagen zu transformieren. GPUs sind aufgrund ihrer parallelen Architektur besonders gut darin, zahlreiche MatMul-Operationen gleichzeitig auszuführen, was für das effiziente Training und die Bereitstellung komplexer Modelle unerlässlich ist.

Trotz dieses Vorteils werden MatMul-Operationen bei LLMs mit Hunderten von Milliarden von Parametern zu Engpässen, die massive GPU-Cluster für Training und Inferenz erfordern. Ein Umstieg von MatMul könnte erhebliche Einsparungen bei Speicher und Berechnung ermöglichen. Frühere Versuche, MatMul-Operationen zu ersetzen, erzielten jedoch inkonsistente Ergebnisse und verlangsamten oft Prozesse aufgrund suboptimaler Leistung auf GPUs.

Revolutionierung der Operationen mit ternären Gewichten

Die Forscher schlagen eine aufregende Alternative vor: den Austausch traditioneller 16-Bit-Gleitkomma-Gewichte in Transformatoren durch 3-Bit-ternäre Gewichte, die drei Zustände (-1, 0 und +1) repräsentieren können. Sie führen additive Operationen ein, um MatMul zu ersetzen, was zu erheblichen Reduzierungen der Rechenkosten führt. Ihre Modelle verwenden „BitLinear-Schichten“, die diese ternären Gewichte nutzen.

„Durch die Einschränkung der Gewichte auf die Menge {−1, 0, +1} und zusätzliche Quantisierungstechniken haben wir MatMul durch Additions- und Negationsoperationen ersetzt“, erklärt das Forscherteam.

Innovative architektonische Veränderungen

Die Architektur unterscheidet sich grundlegend von traditionellen Transformatoren, die aus Token- und Kanal-Mixern bestehen. Der Token-Mixer, der für die Integration von Informationen über Sequenz-Token mithilfe von Selbst-Achten-Mechanismen verantwortlich ist, wechselt zu einer matMul-freien linearen Gated Recurrent Unit (MLGRU). Die MLGRU verarbeitet Token, indem sie versteckte Zustände durch einfache ternäre Operationen aktualisiert und somit teure Matrixmultiplikationen umgeht.

Darüber hinaus nutzt der Kanal-Mixer, der Informationen über verschiedene Merkmalskanäle der Darstellung eines Tokens integriert, eine modifizierte Gated Linear Unit (GLU), die ternäre Gewichte unterstützt. Diese Anpassung minimiert die Rechenkomplexität und den Speicherbedarf, während die effektive Merkmalsintegration erhalten bleibt.

„Durch die Kombination des MLGRU-Token-Mixers mit dem GLU-Kanal-Mixer unter Verwendung ternärer Gewichte basiert unsere Architektur ausschließlich auf Addition und elementweisen Produkten“, bemerken die Forscher.

Leistungsbewertung matMul-freier Sprachmodelle

Die Forscher vergleichen ihre matMul-freien LMs mit der fortschrittlichen Transformer++-Architektur, die in Llama-2 verwendet wird, über verschiedene Modellgrößen. Ihre Ergebnisse zeigen, dass das matMul-freie LM zusätzliche Rechenressourcen besser nutzt, um die Leistung im Vergleich zu Transformer++ zu steigern.

Bei der Bewertung sprachlicher Aufgaben übertraf das 2,7B matMul-freie LM die Leistung seines Transformer++-Gegenstücks bei Benchmarks wie ARC-Challenge und OpenbookQA, während es in anderen Aufgaben vergleichbare Ergebnisse erzielte.

„Diese Ergebnisse zeigen, dass matMul-freie Architekturen starke Zero-Shot-Leistungen über verschiedene Sprachaufgaben, einschließlich Fragebeantwortung und Alltagswissen, liefern können“, betonen die Forscher.

Der niedrigere Speicherverbrauch und die reduzierte Latenz für matMul-freie LMs werden mit zunehmender Modellgröße deutlicher. Beispielsweise benötigt das 13B Modell nur 4,19 GB GPU-Speicher mit einer Latenz von 695,48 ms, während der Transformer++ 48,50 GB bei einer Latenz von 3183,10 ms verlangt.

Optimierte Implementierungen und zukünftige Richtungen

Die Forscher entwickelten eine optimierte GPU-Implementierung und eine spezielle FPGA-Konfiguration für matMul-freie Sprachmodelle. Mit dieser Optimierung erzielten sie eine Beschleunigung von 25,6% im Training und eine Reduktion des Speicherbedarfs um bis zu 61,0% im Vergleich zu einer unoptimierten Basislinie.

„Diese Arbeit geht über softwarebasierte Implementierungen leichter Modelle hinaus und zeigt, dass skalierbare und effiziente Sprachmodelle die Rechenanforderungen und den Energieverbrauch effektiv reduzieren können“, schlussfolgern die Forscher.

Obwohl Einschränkungen die Tests an Modellen mit mehr als 100 Milliarden Parametern begrenzten, hoffen die Forscher, Institutionen zu ermutigen, in leichte Modelle zu investieren, um den Weg für zugänglichere Sprachmodelle unabhängig von Hochleistungs-GPUs zu ebnen. Die Forscher haben ihren Code und ihre Modelle der Forschungscommunity zur Verfügung gestellt.

„Durch die Priorisierung der Entwicklung matMul-freier Architekturen wird die Zukunft der LLMs in Richtung größerer Zugänglichkeit, Effizienz und Nachhaltigkeit tendieren“, betonen die Forscher.

Ehemalige Meta-Ingenieure stellen Jace vor: einen autonomen KI-Agenten.

LiveBench: Ein offenes LLM-Benchmark mit kontaminationsfreien Testdaten und objektiver Bewertung

Most people like

FinalScout

53.3K

Entfesseln Sie die Kraft der LinkedIn-E-Mail-Extraktion und nutzen Sie maßgeschneiderte Outreach-Strategien mit ChatGPT. Steigern Sie Ihr Networking und verbinden Sie sich effektiv mit Ihrer Zielgruppe!

E-Mail-Suche Other

OpusWebsite

66.5K

OpusWebsite bietet benutzerfreundliche Tools zum Erstellen von Websites, die es Einzelpersonen und Unternehmen ermöglichen, mühelos beeindruckende Webseiten zu gestalten – ganz ohne Programmierkenntnisse.

Website AI Animated Video

Qubinets

14.5K

In der heutigen schnelllebigen digitalen Landschaft ist der Aufbau einer nahtlosen Dateninfrastruktur entscheidend für Unternehmen, die ihre Betriebsabläufe optimieren und Wachstum vorantreiben möchten. Ein gut gestaltetes Datensystem erleichtert nicht nur den reibungslosen Datenfluss, sondern befähigt Organisationen auch, fundierte Entscheidungen auf Grundlage von Echtzeit-Einblicken zu treffen. Durch die Implementierung einer effizienten Dateninfrastruktur können Unternehmen die Zusammenarbeit verbessern, Prozesse optimieren und letztendlich die Gesamteffizienz steigern. Erfahren Sie, wie Sie Ihre Dateninfrastruktur effektiv einrichten können, um Ihre Unternehmensziele zu unterstützen und langfristigen Erfolg zu sichern.

Cloud-Dateninfrastruktur AI Analytics Assistant

CleverSpinner

24.9K

Im digitalen Zeitalter ist es entscheidend, einzigartige und ansprechende Inhalte zu erstellen, um online hervorzustechen. Ein KI-Inhaltsumschreiber, Spinner und Humanizer kann bestehende Artikel in frische, fesselnde Texte verwandeln. Durch die Verbesserung der Lesbarkeit und das Hinzufügen eines menschlichen Elements steigern diese Werkzeuge nicht nur die Originalität Ihrer Inhalte, sondern auch deren Sichtbarkeit in Suchmaschinen (SEO). Egal, ob Sie Blogger, Vermarkter oder Geschäftsinhaber sind, die Nutzung KI-gesteuerter Inhaltslösungen kann Ihren Schreibprozess optimieren und gleichzeitig die Aufmerksamkeit Ihres Publikums effektiv erfassen.

KI-Artikelneuformulierung AI Content Detector

Find AI tools in YBX