Nvidia Llama-3.1-Minitron 4B: Ein leistungsstarkes kleines Sprachmodell, das die Erwartungen übertrifft.

Home KI-Nachrichten Nvidia Llama-3.1-Minitron 4B: Ein leistungsstarkes kleines Sprachmodell, das die Erwartungen übertrifft.

Im Wettlauf um On-Device-KI erweitern Tech-Unternehmen rasch die Forschung zu Small Language Models (SLMs), die für ressourcenbeschränkte Geräte optimiert sind. Ein jüngster Durchbruch von Nvidia hat das Llama-3.1-Minitron 4B hervorgebracht, eine komprimierte Version des Llama-3-Modells, die fortschrittliche Techniken wie Pruning und Distillation nutzt. Dieses neue Modell konkurriert nicht nur mit größeren Gegenstücken, sondern bietet auch einen effizienteren Trainings- und Bereitstellungsprozess.

Verständnis von Pruning und Distillation

Pruning und Distillation sind essentielle Techniken zur Entwicklung kleinerer, effizienter Sprachmodelle. Pruning entfernt weniger kritische Komponenten: Bei "Depth Pruning" werden komplette Schichten eliminiert, während "Width Pruning" spezifische Elemente wie Neuronen und Attention Heads entfernt.

Bei der Modell-Distillation wird Wissen von einem größeren "Lehrermodell" auf ein einfacheres "Schülermodell" übertragen. Es gibt zwei Hauptansätze:

1. SGD-Training: Das Schülermodell lernt aus den Eingaben und Antworten des Lehrers.

2. Klassische Wissensdistillation: Hier lernt das Schüler-Modell nicht nur aus den endgültigen Ausgaben, sondern auch aus den intermediären Aktivierungen des Lehrermodells.

Eine frühere Studie von Nvidia kombinierte Pruning mit klassischer Wissensdistillation und reduzierte das Nemotron 15B-Modell auf ein 8-Milliarden-Parameter-Modell. Die anschließende Distillation vom ursprünglichen Modell zur beschnittenen Version führte zu einem kleineren 4B-Modell, das eine 16%ige Leistungssteigerung im MMLU-Benchmark erzielte und dabei 40-mal weniger Trainings-Tokens verwendete als ein Neuanfang.

Entwicklung von Llama 3.1-Minitron

Aufbauend auf ihren bisherigen Techniken wandte Nvidia die gleichen Methoden auf das Llama 3.1 8B-Modell an, um eine 4-Milliarden-Parameter-Version zu schaffen, die mit größeren Modellen konkurrieren kann. Der Prozess begann mit dem Feintuning des unbeschnittenen 8B-Modells auf einem umfassenden Datensatz von 94 Milliarden Tokens, um Verteilungverschiebungen zu adressieren, die die Anleitung während der Distillation beeinträchtigten.

Anschließend wurden zwei Arten des Pruning eingesetzt: Depth-Only Pruning, das die Schichten des Modells um 50% reduzierte, und Width-Only Pruning, das 50% der Neuronen in bestimmten dichten Schichten entfernte. Diese Anpassungen führten zu zwei unterschiedlichen Versionen des Llama-3.1-Minitron 4B-Modells.

Die beschnittenen Modelle wurden mit NeMo-Aligner, einem Toolkit mit verschiedenen Ausrichtungsalgorithmen, darunter Verstärkendes Lernen mit menschlichem Feedback (RLHF) und Nvidias SteerLM, weiter optimiert.

Leistungsergebnisse

Nvidia bewertete die Llama-3.1-Minitron 4B-Modelle hinsichtlich Aufgaben zur Befehlsverfolgung, Rollenspiel, retrieval-augmented Generation und Funktionsaufruf. Trotz eines kleineren Trainingsdatensatzes zeigte das Llama-3.1-Minitron 4B eine Leistung, die mit anderen SLMs wie Phi-2 2.7B und Gemma2 2.6B vergleichbar war, und das trotz seiner signifikant größeren Größe. Dies verdeutlicht einen überzeugenden Kompromiss zwischen Trainingskosten und Inferenzeffizienz.

Die width-beschnittene Version des Modells ist jetzt unter der Nvidia Open Model License auf Hugging Face verfügbar, was die Zugänglichkeit und kommerzielle Nutzung durch Entwickler fördert.

Nvidia betont, dass "Pruning und klassische Wissensdistillation eine kosteneffiziente Methode zur Erstellung kleinerer, hochgenauer großer Sprachmodelle im Vergleich zu traditionellen Methoden sind." Diese Arbeit unterstreicht die entscheidende Rolle der Open-Source-Community bei der Weiterentwicklung von KI und zeigt, wie Pruning- und Distillationsstrategien LLMs optimieren und gleichzeitig Kosten minimieren können. Andere innovative Ansätze, wie der evolutionäre Modell-Vereinigungsalgorithmus von Sakana AI, verdeutlichen zusätzlich das Potenzial kostengünstiger Trainingslösungen im KI-Bereich.

Wie Indien Nvidia Accelerated Computing nutzt, um das Verkehrsmanagement an Mautstellen zu optimieren

Freischaltung des Feintunings für GPT-4o: Genießen Sie täglich 1 Million kostenlose Tokens bis zum 23. September!

Most people like

Flux LoRA Model Library

Erhöhen Sie die Erstellung Ihrer Flux-Modelle, indem Sie LoRA-Modelle für verbesserte Leistung und Flexibilität integrieren. Entdecken Sie, wie diese innovativen Modelle Ihren Arbeitsablauf verändern und Ihre Ergebnisse optimieren können.

Flux Other

Shakker

1.2M

In einer Ära, in der Technologie und Kreativität aufeinandertreffen, revolutioniert künstliche Intelligenz (KI) die Art und Weise, wie wir Bilder erstellen und manipulieren. Von der Verbesserung von Fotografien bis hin zur Generierung beeindruckender Kunstwerke ermöglichen KI-Tools Künstlern und Designern, die Grenzen ihrer Vorstellungskraft zu erweitern. Während wir die transformative Kraft der KI im Bereich der Bildgestaltung erkunden, werden wir innovative Techniken und Anwendungen analysieren, die die Zukunft der visuellen Inhalte gestalten. Begleiten Sie uns auf dieser Reise, um zu entdecken, wie KI nicht nur ein Werkzeug, sondern ein Katalysator für kreativen Ausdruck ist.

Shakker AI Photo & Image Generator

Toolsaday

655.9K

Entfalten Sie das Potenzial einer KI-gesteuerten Plattform, die darauf ausgelegt ist, fesselnde Marketinginhalte zu erstellen, die Ihr Publikum begeistert.

KI-basierte Plattform AI Content Generator

Denvr Dataworks

Denvr Dataworks ist auf die Bereitstellung robuster Cloud- und Infrastruktur Lösungen spezialisiert, die auf künstliche Intelligenz (KI), maschinelles Lernen (ML), Hochleistungsrechnen (HPC) und verschiedene Rechenanwendungen zugeschnitten sind.

Hochleistungs-Cloud Other

Find AI tools in YBX