Forscher der ETH Zürich haben eine bahnbrechende Technik entwickelt, die die Effizienz von neuronalen Netzwerken drastisch erhöht. Durch die Modifizierung des Inferenzprozesses konnten sie die rechnerischen Anforderungen dieser Netzwerke erheblich reduzieren.
In ihren Experimenten mit BERT, einem weit verbreiteten Transformator-Modell für verschiedene Sprachaufgaben, erreichten die Forscher eine bemerkenswerte Reduktion der Berechnungen um über 99 %. Diese innovative Methode kann auch auf Transformator-Modelle angewendet werden, die große Sprachmodelle (LLMs) wie GPT-3 antreiben. Dies ebnet den Weg für eine beschleunigte und effizientere Sprachverarbeitung.
Verständnis von schnellen Feedforward-Netzwerken
Transformatoren, das Rückgrat der LLMs, bestehen aus mehreren Schichten, darunter Aufmerksamkeits- und Feedforward-Schichten. Die Feedforward-Schichten, die einen erheblichen Teil der Modellparameter umfassen, sind rechnerisch intensiv, da sie das Produkt aller Neuronen über die Eingabedimensionen berechnen müssen.
Die Forscher stellten fest, dass nicht alle Neuronen in den Feedforward-Schichten für jede Eingabe während der Inferenz aktiviert werden müssen. Sie führten „schnelle Feedforward“-Schichten (FFF) ein, um die herkömmlichen Feedforward-Schichten zu ersetzen.
FFF nutzt die bedingte Matrixmultiplikation (CMM), eine mathematische Operation, die die dichte Matrixmultiplikation (DMM) traditioneller Feedforward-Netzwerke ersetzt. Während DMM alle Eingabeparameter mit allen Neuronen multipliziert, verwendet CMM selektiv nur einen Teil der Neuronen für jede Eingabe und optimiert so die Verarbeitung und reduziert die rechnerische Belastung.
FastBERT: Ein Wendepunkt in der Sprachverarbeitung
Um ihre innovative Technik zu testen, entwickelten die Forscher FastBERT, eine modifizierte Version von Googles BERT-Modell. FastBERT verbessert die Leistung, indem sie die standardmäßigen Feedforward-Schichten durch schnelle Feedforward-Schichten ersetzt und die Neuronen in einer ausgewogenen binären Baumstruktur anordnet, die nur einen Zweig basierend auf spezifischen Eingaben aktiviert.
Zur Bewertung von FastBERTs Fähigkeiten optimierte das Team verschiedene Modelle anhand des General Language Understanding Evaluation (GLUE) Benchmarks, einer Suite zur Evaluierung von Systemen für das natürliche Sprachverständnis.
Die Ergebnisse waren beeindruckend: FastBERT erzielte eine ähnliche Leistung wie Basis-BERT-Modelle ähnlicher Größe und Ausbildung. Varianten, die nur einen Tag auf einem einzelnen A6000-GPU feinjustiert wurden, behielten mindestens 96,0 % der BERT-Leistung bei. Besonders bemerkenswert ist, dass die beste Variante die Leistung von BERT erreichte, während sie nur 0,3 % ihrer Neuronen nutzte.
Die Forscher sind überzeugt, dass die Integration schneller Feedforward-Netzwerke in LLMs enormes Potenzial für eine Geschwindigkeitssteigerung birgt. Zum Beispiel enthält in GPT-3 jede Transformator-Schicht 49.152 Neuronen; mit FFF könnte dies optimiert werden, um während der Inferenz nur 16 Neuronen zu nutzen, was etwa 0,03 % der Neuronen von GPT-3 entspricht.
Herausforderungen der Optimierung angehen
Obwohl die dichte Matrixmultiplikation im Laufe der Jahre erheblich optimiert wurde, gilt das nicht für die bedingte Matrixmultiplikation. Die Forscher bemerkten: „Die dichte Matrixmultiplikation ist die am besten optimierte mathematische Operation in der Computerhistorie.“ Aktuelle Deep-Learning-Frameworks bieten nur begrenzte Unterstützung für CMM, vorwiegend durch hochrangige Simulationen.
Um diese Forschung voranzutreiben, entwickelten die Forscher eine eigene Implementierung von CMM-Operationen, die zu einer beeindruckenden Geschwindigkeitsverbesserung von 78x während der Inferenz führte. Sie glauben, dass mit verbesserter Hardware und besseren Implementierungen auf niedriger Ebene Geschwindigkeiten von über 300x möglich wären. Dies würde eines der drängendsten Probleme in Sprachmodellen erheblich angehen: die schnellere Generierung von Token.
Fazit
Das Potenzial einer theoretischen Geschwindigkeitssteigerung von 341x für BERT-Basismodelle verdeutlicht das transformative Potenzial ihrer Arbeit. Die Forscher hoffen, die weitere Entwicklung von bedingten neuralen Ausführungsprimitive innerhalb von Geräteprogrammierschnittstellen zu inspirieren. Diese Forschung ist ein wichtiger Schritt zur Überwindung der Speicher- und Berechnungsbeschränkungen großer Sprachmodelle und fördert die Entwicklung effizienterer und robusterer KI-Systeme.