Revolutionäre Transformer-Architektur Steigert die Geschwindigkeit und Ressourceneffizienz von Sprachmodellen

Große Sprachmodelle wie ChatGPT und Llama-2 sind bekannt für ihren enormen Speicher- und Rechenaufwand, was ihre Betriebskosten in die Höhe treibt. Selbst eine geringe Reduzierung ihrer Größe kann zu erheblichen Kosteneinsparungen führen.

Um dieses Problem zu lösen, haben Forscher der ETH Zürich eine innovative Version des Transformers vorgestellt – einer tiefen Lernarchitektur, die die Basis für Sprachmodelle bildet. Dieser neue Entwurf verringert die Größe des Transformers signifikant, während Genauigkeit und Inferenzgeschwindigkeit verbessert werden. Dies stellt einen vielversprechenden Ansatz zur Schaffung effizienterer Sprachmodelle dar.

Verstehen der Transformer-Blöcke

Sprachmodelle basieren auf Transformer-Blöcken, einheitlichen Einheiten, die zur Verarbeitung sequentieller Daten, wie Textpassagen, entwickelt wurden. Ein klassischer Transformer-Block besteht aus zwei Hauptkomponenten: dem Aufmerksamkeitsmechanismus und dem Mehrschichtigem Perzeptron (MLP). Der Aufmerksamkeitsmechanismus hebt selektiv Teile der Eingabedaten hervor (wie Wörter in einem Satz) und erfasst deren Kontext und Bedeutung in Bezug aufeinander. Diese Fähigkeit ermöglicht es dem Modell, Wortbeziehungen zu verstehen, selbst wenn sie im Text weiter auseinanderliegen.

Im Anschluss verfeinert das MLP – ein kleineres neuronales Netzwerk – die hervorgehobenen Informationen weiter und transformiert sie in eine komplexere Darstellung, die vielschichtige Beziehungen erfasst. Zusätzliche Komponenten wie Residualverbindungen und Normalisierungsschichten verbessern das Lernen und adressieren häufige Herausforderungen in tiefen neuronalen Netzwerken. Während diese Transformer-Blöcke sich zu einem Sprachmodell stapeln, wächst ihre Fähigkeit, komplexe Beziehungen zu erkennen, und ermöglicht die anspruchsvollen Aufgaben moderner Sprachmodelle. Trotz ihres revolutionären Einflusses ist das grundlegende Design des Transformer-Blocks seit seiner Einführung weitgehend unverändert geblieben.

Effizienz von Transformern steigern

Laut den Forschern der ETH Zürich bieten „effizienzsteigernde Maßnahmen in den Trainings- und Inferenzpipelines der Transformer-Architektur signifikante Einsparpotenziale, angesichts der exorbitanten Kosten für Training und Einsatz großer Transformer-Modelle“. Sie argumentieren, dass die Vereinfachung des Transformer-Blocks durch den Abbau nicht wesentlicher Komponenten die Parameteranzahl minimiert und die Modellgeschwindigkeit erhöht.

Ihre Experimente zeigen, dass die Straffung des Transformer-Blocks weder die Trainingsgeschwindigkeit noch die Leistung beeinträchtigt. Traditionelle Transformer-Modelle nutzen mehrere Aufmerksamkeitsköpfe, die jeweils eigene Schlüssel- (K), Abfrage- (Q) und Werteparameter (V) besitzen. Die Forscher stellten fest, dass die Eliminierung der V-Parameter und der zugehörigen Projektionsschicht die Effektivität nicht minderte.

Darüber hinaus entfernten sie Sprungverbindungen, die normalerweise das „vanishing gradient“-Problem verhindern, das das Training in tiefen Netzwerken behindert.

Neues Design des Transformer-Blocks

Der neu gestaltete Transformer-Block verarbeitet Aufmerksamkeitsköpfe und das MLP gleichzeitig, anstatt traditionell sequentiell vorzugehen. Um den Parameterabbau auszugleichen, passten die Forscher andere nicht lernbare Parameter an, verfeinerten ihre Trainingsmethoden und nahmen architektonische Anpassungen vor. Diese Innovationen erhalten insgesamt die Lernfähigkeiten des Modells, trotz seines schlankeren Rahmens.

Test des verbesserten Transformer-Blocks

Das Team der ETH Zürich bewertete ihren kompakten Transformer-Block über verschiedene Tiefen von Sprachmodellen. Sie erzielten eine bemerkenswerte Reduzierung der Größe des herkömmlichen Transformers um etwa 16 %, ohne die Genauigkeit zu opfern, und sicherten sich schnellere Inferenzzeiten. Bei Anwendung dieser Architektur auf ein großes Modell wie GPT-3 mit 175 Milliarden Parametern könnten somit etwa 50 GB Speicher eingespart werden.

„Unsere vereinfachten Modelle trainieren nicht nur schneller, sondern nutzen auch die zusätzliche Kapazität, die durch eine größere Tiefe bereitgestellt wird, besser aus“, bemerkten die Forscher. Während diese Technik auf kleinerer Ebene wirksam war, bleibt ihre Anwendung auf größere Modelle noch zu erkunden. Das Potenzial für weitere Verbesserungen, wie die Anpassung von KI-Prozessoren an dieses optimierte Design, könnte ihre Auswirkungen erheblich verstärken.

Die Forscher schließen mit der Überzeugung: „Wir glauben, dass unsere Arbeit zu einfacheren Architekturen in der Praxis führen kann, die die Kluft zwischen Theorie und Anwendung im Deep Learning überbrücken und die Kosten für große Transformer-Modelle senken.“

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles