Forscher von Microsoft und der Beihang-Universität haben eine kostengünstige Methode zur Feinabstimmung großer Sprachmodelle (LLMs) entwickelt, die die üblichen Kosten erheblich senkt. Diese neuartige parameter-effiziente Feinabstimmungsmethode (PEFT) trägt den Namen MoRA und beseitigt die Einschränkungen, die häufig mit vorhandenen Techniken wie der Low-Rank-Anpassung (LoRA) verbunden sind. MoRA ist besonders vorteilhaft, wenn es darum geht, Modelle für Aufgaben zu optimieren, die neues Wissen erfordern. In Unternehmen, in denen PEFT-Strategien an Bedeutung gewinnen, stellt MoRA ein wertvolles Werkzeug für Entwickler von LLM-Anwendungen dar.
Verständnis von PEFT und LoRA
Bei der traditionellen Feinabstimmung müssen alle Parameter eines LLM angepasst werden, was aufgrund der oft Milliarden von Parametern hohen Kosten und Zeitaufwand verursacht. PEFT-Techniken optimieren diesen Prozess, indem sie die minimalen Parameter identifizieren, die für aufgabenspezifische Anpassungen erforderlich sind. LoRA hat sich als beliebte PEFT-Methode etabliert, da sie Parameter mit Hilfe von Low-Rank-Matrizen aktualisiert, was den Speicherbedarf reduziert und die Speicherung sowie den Einsatz feinabgestimmter Modelle erleichtert. Allerdings hat LoRA Schwierigkeiten bei komplexeren Aufgaben wie mathematischem Denken und fortlaufendem Pre-Training, da der Low-Rank-Ansatz die Fähigkeit des Modells einschränkt, neues Wissen zu erwerben und zu behalten. Laut den Forschern „beschränkt diese Einschränkung die Kapazität, neues Wissen durch Feinabstimmung zu speichern.“
Einführung von MoRA
MoRA verbessert LoRA, indem es auf eine einzelne quadratische Matrix statt auf Low-Rank-Matrizen setzt, was einen effizienteren Feinabstimmungsprozess ermöglicht. Das Hauptkonzept hinter MoRA besteht darin, trainierbare Parameter zu nutzen, um den höchstmöglichen Rang zu erreichen, der mit den ursprünglichen Dimensionen des Modells kompatibel ist. Im Gegensatz zu LoRA stimmen die Ein- und Ausgabedimensionen von MoRA nicht mit denen des ursprünglichen Modells überein, was eine einfache Matrizenmultiplikation verhindert. Um dies zu lösen, entwickelten die Forscher eine Kompressions-/Dekompressionsfunktion, die eine Transformation der Eingaben zwischen den beiden Räumen ermöglicht, wodurch MoRA nahtlos in LLMs verschiedener Größen integriert werden kann. Die quadratische Gewichtsmatrix erhöht MoRAs Fähigkeit, neues Wissen im Vergleich zu einem gleich großen LoRA-Modell zu lernen und zu speichern.
MoRAs Leistung
In Vergleichsstudien übertraf MoRA konstant LoRA bei Memorierungsaufgaben und erreichte nahezu die Leistung vollständig feinabgestimmter Modelle, während es weniger Parameter und Trainingsschritte benötigte. Die Forscher stellten fest, dass MoRAs Verlustkurve eng mit der vollständigen Feinabstimmung bei Wissensspeicheraufgaben übereinstimmt, was seine Effizienz belegt. „Unsere Methode zeigt signifikante Verbesserungen gegenüber LoRA bei gleicher Anzahl trainierbarer Parameter und profitiert von hochrangiger Aktualisierung“, erklärten sie. In Aufgaben der Anweisungseinstellung und mathematischen Begründung war MoRAs Leistung nahezu gleichwertig mit LoRA. Allerdings übertraf MoRA in kontinuierlichen Pre-Training-Szenarien im biomedizinischen und finanziellen Bereich aufgrund seiner hochrangigen Aktualisierungskapazität, die die Speicherung neuen Wissens erleichtert. Die Forscher wiesen auch darauf hin, dass die Erhöhung des Rangs des MoRA-Adapters die Leistungslücke zwischen PEFT und vollständiger Feinabstimmung bei mathematischen Begründungsaufgaben verringern könnte, jedoch mit höheren Anforderungen an Training und Speicherplatz.
Die Rolle von PEFT in Unternehmen
Die Feinabstimmung ist entscheidend für Unternehmensanwendungen von LLMs. Sie verbessert die Fähigkeiten und die Genauigkeit von LLMs, sodass Organisationen kleinere Modelle für Aufgaben nutzen können, die ansonsten aufwändigere Modelle erfordern würden. Derzeit gelten LoRA und deren Varianten als Maßstab für parameter-effiziente Feinabstimmung und werden von einem robusten Ökosystem von Tools und Plattformen unterstützt, die die Erstellung von LoRA-Adaptern ermöglichen. Beispielsweise ermöglicht S-LoRA Entwicklern die Ausführung mehrerer LoRA-Adapter auf einer einzigen GPU, was Anwendungen erleichtert, die zahlreiche fein abgestimmte LLMs benötigen, die auf individuelle Benutzerinhalte zugeschnitten sind. Die Forscher haben MoRA als Open-Source-Implementierung veröffentlicht, die mit LoRA kompatibel ist, und positionieren es als bedeutende Ressource für Unternehmen, die Basismodelle mit neuem Wissen anreichern möchten.