Nvidia Llama-3.1-Minitron 4B: Ein leistungsstarkes kleines Sprachmodell, das die Erwartungen übertrifft.

Home KI-Nachrichten Nvidia Llama-3.1-Minitron 4B: Ein leistungsstarkes kleines Sprachmodell, das die Erwartungen übertrifft.

Im Wettlauf um On-Device-KI erweitern Tech-Unternehmen rasch die Forschung zu Small Language Models (SLMs), die für ressourcenbeschränkte Geräte optimiert sind. Ein jüngster Durchbruch von Nvidia hat das Llama-3.1-Minitron 4B hervorgebracht, eine komprimierte Version des Llama-3-Modells, die fortschrittliche Techniken wie Pruning und Distillation nutzt. Dieses neue Modell konkurriert nicht nur mit größeren Gegenstücken, sondern bietet auch einen effizienteren Trainings- und Bereitstellungsprozess.

Verständnis von Pruning und Distillation

Pruning und Distillation sind essentielle Techniken zur Entwicklung kleinerer, effizienter Sprachmodelle. Pruning entfernt weniger kritische Komponenten: Bei "Depth Pruning" werden komplette Schichten eliminiert, während "Width Pruning" spezifische Elemente wie Neuronen und Attention Heads entfernt.

Bei der Modell-Distillation wird Wissen von einem größeren "Lehrermodell" auf ein einfacheres "Schülermodell" übertragen. Es gibt zwei Hauptansätze:

1. SGD-Training: Das Schülermodell lernt aus den Eingaben und Antworten des Lehrers.

2. Klassische Wissensdistillation: Hier lernt das Schüler-Modell nicht nur aus den endgültigen Ausgaben, sondern auch aus den intermediären Aktivierungen des Lehrermodells.

Eine frühere Studie von Nvidia kombinierte Pruning mit klassischer Wissensdistillation und reduzierte das Nemotron 15B-Modell auf ein 8-Milliarden-Parameter-Modell. Die anschließende Distillation vom ursprünglichen Modell zur beschnittenen Version führte zu einem kleineren 4B-Modell, das eine 16%ige Leistungssteigerung im MMLU-Benchmark erzielte und dabei 40-mal weniger Trainings-Tokens verwendete als ein Neuanfang.

Entwicklung von Llama 3.1-Minitron

Aufbauend auf ihren bisherigen Techniken wandte Nvidia die gleichen Methoden auf das Llama 3.1 8B-Modell an, um eine 4-Milliarden-Parameter-Version zu schaffen, die mit größeren Modellen konkurrieren kann. Der Prozess begann mit dem Feintuning des unbeschnittenen 8B-Modells auf einem umfassenden Datensatz von 94 Milliarden Tokens, um Verteilungverschiebungen zu adressieren, die die Anleitung während der Distillation beeinträchtigten.

Anschließend wurden zwei Arten des Pruning eingesetzt: Depth-Only Pruning, das die Schichten des Modells um 50% reduzierte, und Width-Only Pruning, das 50% der Neuronen in bestimmten dichten Schichten entfernte. Diese Anpassungen führten zu zwei unterschiedlichen Versionen des Llama-3.1-Minitron 4B-Modells.

Die beschnittenen Modelle wurden mit NeMo-Aligner, einem Toolkit mit verschiedenen Ausrichtungsalgorithmen, darunter Verstärkendes Lernen mit menschlichem Feedback (RLHF) und Nvidias SteerLM, weiter optimiert.

Leistungsergebnisse

Nvidia bewertete die Llama-3.1-Minitron 4B-Modelle hinsichtlich Aufgaben zur Befehlsverfolgung, Rollenspiel, retrieval-augmented Generation und Funktionsaufruf. Trotz eines kleineren Trainingsdatensatzes zeigte das Llama-3.1-Minitron 4B eine Leistung, die mit anderen SLMs wie Phi-2 2.7B und Gemma2 2.6B vergleichbar war, und das trotz seiner signifikant größeren Größe. Dies verdeutlicht einen überzeugenden Kompromiss zwischen Trainingskosten und Inferenzeffizienz.

Die width-beschnittene Version des Modells ist jetzt unter der Nvidia Open Model License auf Hugging Face verfügbar, was die Zugänglichkeit und kommerzielle Nutzung durch Entwickler fördert.

Nvidia betont, dass "Pruning und klassische Wissensdistillation eine kosteneffiziente Methode zur Erstellung kleinerer, hochgenauer großer Sprachmodelle im Vergleich zu traditionellen Methoden sind." Diese Arbeit unterstreicht die entscheidende Rolle der Open-Source-Community bei der Weiterentwicklung von KI und zeigt, wie Pruning- und Distillationsstrategien LLMs optimieren und gleichzeitig Kosten minimieren können. Andere innovative Ansätze, wie der evolutionäre Modell-Vereinigungsalgorithmus von Sakana AI, verdeutlichen zusätzlich das Potenzial kostengünstiger Trainingslösungen im KI-Bereich.

Wie Indien Nvidia Accelerated Computing nutzt, um das Verkehrsmanagement an Mautstellen zu optimieren

Freischaltung des Feintunings für GPT-4o: Genießen Sie täglich 1 Million kostenlose Tokens bis zum 23. September!

Most people like

CleverSpinner

24.9K

Im digitalen Zeitalter ist es entscheidend, einzigartige und ansprechende Inhalte zu erstellen, um online hervorzustechen. Ein KI-Inhaltsumschreiber, Spinner und Humanizer kann bestehende Artikel in frische, fesselnde Texte verwandeln. Durch die Verbesserung der Lesbarkeit und das Hinzufügen eines menschlichen Elements steigern diese Werkzeuge nicht nur die Originalität Ihrer Inhalte, sondern auch deren Sichtbarkeit in Suchmaschinen (SEO). Egal, ob Sie Blogger, Vermarkter oder Geschäftsinhaber sind, die Nutzung KI-gesteuerter Inhaltslösungen kann Ihren Schreibprozess optimieren und gleichzeitig die Aufmerksamkeit Ihres Publikums effektiv erfassen.

KI-Artikelneuformulierung AI Content Detector

Vidful.ai

9.3K

Erstellen Sie mühelos beeindruckende Videos aus Text und Bildern mit KI-Videoerstellungstechnologie.

KI-Videogenerator AI Content Generator

Quenti

22.5K

Entdecken Sie die ultimative moderne Lernplattform, die Ihnen hilft, jedes Fach mühelos zu meistern.

Lernplattform AI Course

Anthropic

70.4M

Wir stellen Claude vor, einen fortschrittlichen KI-Assistenten, entwickelt von Anthropic, der eine Vielzahl von Funktionen und Dienstleistungen bietet, um Ihr Erlebnis zu verbessern.

KI-Assistent AI Chatbot

Find AI tools in YBX