Mit zunehmender Begeisterung für die Möglichkeiten des neuen GPT-4o-mini hat Apple seine Sammlung kompakter KI-Modelle um mehrere offene DataComp for Language Models (DCLM) Modelle auf Hugging Face erweitert. Das Paket umfasst zwei bedeutende Modelle: eines mit 7 Milliarden und ein weiteres mit 1,4 Milliarden Parametern. Beide Modelle glänzen in Benchmark-Tests, insbesondere das größere Modell, das Mistral-7B übertrifft und sich schnell der Leistung anderer führender offener Modelle wie Llama 3 und Gemma annähert.
Vaishaal Shankar vom Apple-ML-Team bezeichnet diese Modelle als die „besten verfügbaren“ Open-Source-Optionen. Besonders hervorzuheben ist, dass das Projekt vollständig auf Open-Source-Prinzipien setzt, indem es Modellausgaben, Trainingscode und den Pretraining-Datensatz veröffentlicht hat.
Überblick über die Apple DCLM Modelle
Das DataComp-Projekt ist eine gemeinschaftliche Initiative von Forschern der University of Washington, der Universität Tel Aviv und dem Toyota Institute of Research. Ziel ist es, qualitativ hochwertige Datensätze für das Training von KI-Modellen, insbesondere im multimodalen Bereich, zu erstellen. Das Team verwendet einen standardisierten Rahmen mit festen Modellarchitekturen, Trainingscode, Hyperparametern und Bewertungen, um verschiedene Datenkuratierungsstrategien zu testen und die Modellleistung zu optimieren.
Frühe Experimente zeigten, dass modellbasiertes Filtern—bei dem Machine-Learning-Modelle hochwertige Daten aus größeren Datensätzen filtern und auswählen—eine entscheidende Rolle beim Zusammenstellen überlegener Trainingssätze spielt. Mit dieser Kuratierungstechnik entwickelte das Team den DCLM-Baseline-Datensatz, der beim Training der Decoder-Only-Transformer-Modelle mit 7 Milliarden und 1,4 Milliarden Parametern von Grund auf entscheidend war.
Das 7B-Modell, das auf 2,5 Billionen Token mit OpenLM-Pretraining-Rezepten trainiert wurde, verfügt über ein 2K-Kontextfenster und erreicht 63,7 % 5-Shot-Genauigkeit im MMLU-Benchmark. Dies stellt eine Verbesserung von 6,6 Prozentpunkten im Vergleich zu MAP-Neo, dem vorherigen Spitzenreiter unter den offenen Sprachmodellen, dar, während 40 % weniger Rechenleistung während des Trainings benötigt werden.
Wichtig ist, dass die MMLU-Leistung in engem Vergleich zu führenden Modellen mit offenen Gewichten, aber geschlossenen Daten steht, wie Mistral-7B-v0.3 (62,7 %), Llama3 8B (66,2 %), Googles Gemma (64,3 %) und Microsofts Phi-3 (69,9 %).
Außerdem beobachteten Forscher, dass eine Verlängerung des Modellkontexts auf 8K und 100 Milliarden zusätzliche Trainingsiterationen mit der Dataset-Decomposition-Technik zu weiteren Leistungsverbesserungen bei Core- und Extended-Benchmarks führten, obwohl die MMLU-Ergebnisse stabil blieben. „Unsere Ergebnisse unterstreichen die Bedeutung des Datensatzdesigns beim Training von Sprachmodellen und bilden die Grundlage für laufende Forschungen zur Datenkuratierung“, so die Forscher in einem Beitrag zu DataComp-LM.
Beeindruckende Leistung des kleineren Modells
Ähnlich wie das DCLM-7B zeigt auch das kleinere 1,4B-Modell, das in Zusammenarbeit mit dem Toyota Research Institute unter Verwendung von 2,6 Billionen Token entwickelt wurde, bemerkenswerte Leistungen in MMLU-, Core- und Extended-Tests. Im 5-Shot-MMLU-Test erzielte es 41,9 % und übertraf damit andere Modelle seiner Kategorie, darunter Hugging Faces SmolLM mit 39,97 %. Qwen-1.5B und Phi-1.5B folgten mit 37,87 % bzw. 35,90 %.
Aktuell ist das 7B-Modell unter Apples Sample Code License verfügbar, während das 1,4B-Modell unter Apache 2.0 veröffentlicht wurde und kommerzielle Nutzung, Verbreitung und Modifikation ermöglicht. Zudem ist eine auf Anleitungen abgestimmte Version des 7B-Modells in der Hugging Face-Bibliothek verfügbar.
Es ist wichtig zu betonen, dass diese Veröffentlichung frühe Forschungsarbeit zur Effektivität der Datenkuratierung darstellt. Diese Modelle sind nicht für Apple-Geräte gedacht und können Verzerrungen aus ihren Trainingsdatensätzen aufweisen oder potenziell schädliche Antworten produzieren.