Im Wettlauf um On-Device-KI erweitern Tech-Unternehmen rasch die Forschung zu Small Language Models (SLMs), die für ressourcenbeschränkte Geräte optimiert sind. Ein jüngster Durchbruch von Nvidia hat das Llama-3.1-Minitron 4B hervorgebracht, eine komprimierte Version des Llama-3-Modells, die fortschrittliche Techniken wie Pruning und Distillation nutzt. Dieses neue Modell konkurriert nicht nur mit größeren Gegenstücken, sondern bietet auch einen effizienteren Trainings- und Bereitstellungsprozess.
Verständnis von Pruning und Distillation
Pruning und Distillation sind essentielle Techniken zur Entwicklung kleinerer, effizienter Sprachmodelle. Pruning entfernt weniger kritische Komponenten: Bei "Depth Pruning" werden komplette Schichten eliminiert, während "Width Pruning" spezifische Elemente wie Neuronen und Attention Heads entfernt.
Bei der Modell-Distillation wird Wissen von einem größeren "Lehrermodell" auf ein einfacheres "Schülermodell" übertragen. Es gibt zwei Hauptansätze:
1. SGD-Training: Das Schülermodell lernt aus den Eingaben und Antworten des Lehrers.
2. Klassische Wissensdistillation: Hier lernt das Schüler-Modell nicht nur aus den endgültigen Ausgaben, sondern auch aus den intermediären Aktivierungen des Lehrermodells.
Eine frühere Studie von Nvidia kombinierte Pruning mit klassischer Wissensdistillation und reduzierte das Nemotron 15B-Modell auf ein 8-Milliarden-Parameter-Modell. Die anschließende Distillation vom ursprünglichen Modell zur beschnittenen Version führte zu einem kleineren 4B-Modell, das eine 16%ige Leistungssteigerung im MMLU-Benchmark erzielte und dabei 40-mal weniger Trainings-Tokens verwendete als ein Neuanfang.
Entwicklung von Llama 3.1-Minitron
Aufbauend auf ihren bisherigen Techniken wandte Nvidia die gleichen Methoden auf das Llama 3.1 8B-Modell an, um eine 4-Milliarden-Parameter-Version zu schaffen, die mit größeren Modellen konkurrieren kann. Der Prozess begann mit dem Feintuning des unbeschnittenen 8B-Modells auf einem umfassenden Datensatz von 94 Milliarden Tokens, um Verteilungverschiebungen zu adressieren, die die Anleitung während der Distillation beeinträchtigten.
Anschließend wurden zwei Arten des Pruning eingesetzt: Depth-Only Pruning, das die Schichten des Modells um 50% reduzierte, und Width-Only Pruning, das 50% der Neuronen in bestimmten dichten Schichten entfernte. Diese Anpassungen führten zu zwei unterschiedlichen Versionen des Llama-3.1-Minitron 4B-Modells.
Die beschnittenen Modelle wurden mit NeMo-Aligner, einem Toolkit mit verschiedenen Ausrichtungsalgorithmen, darunter Verstärkendes Lernen mit menschlichem Feedback (RLHF) und Nvidias SteerLM, weiter optimiert.
Leistungsergebnisse
Nvidia bewertete die Llama-3.1-Minitron 4B-Modelle hinsichtlich Aufgaben zur Befehlsverfolgung, Rollenspiel, retrieval-augmented Generation und Funktionsaufruf. Trotz eines kleineren Trainingsdatensatzes zeigte das Llama-3.1-Minitron 4B eine Leistung, die mit anderen SLMs wie Phi-2 2.7B und Gemma2 2.6B vergleichbar war, und das trotz seiner signifikant größeren Größe. Dies verdeutlicht einen überzeugenden Kompromiss zwischen Trainingskosten und Inferenzeffizienz.
Die width-beschnittene Version des Modells ist jetzt unter der Nvidia Open Model License auf Hugging Face verfügbar, was die Zugänglichkeit und kommerzielle Nutzung durch Entwickler fördert.
Nvidia betont, dass "Pruning und klassische Wissensdistillation eine kosteneffiziente Methode zur Erstellung kleinerer, hochgenauer großer Sprachmodelle im Vergleich zu traditionellen Methoden sind." Diese Arbeit unterstreicht die entscheidende Rolle der Open-Source-Community bei der Weiterentwicklung von KI und zeigt, wie Pruning- und Distillationsstrategien LLMs optimieren und gleichzeitig Kosten minimieren können. Andere innovative Ansätze, wie der evolutionäre Modell-Vereinigungsalgorithmus von Sakana AI, verdeutlichen zusätzlich das Potenzial kostengünstiger Trainingslösungen im KI-Bereich.