Apple präsentiert KI-Fähigkeiten: Neue Modelle übertreffen die Leistung von Mistral und Hugging Face

Home KI-Nachrichten Apple präsentiert KI-Fähigkeiten: Neue Modelle übertreffen die Leistung von Mistral und Hugging Face

Mit zunehmender Begeisterung für die Möglichkeiten des neuen GPT-4o-mini hat Apple seine Sammlung kompakter KI-Modelle um mehrere offene DataComp for Language Models (DCLM) Modelle auf Hugging Face erweitert. Das Paket umfasst zwei bedeutende Modelle: eines mit 7 Milliarden und ein weiteres mit 1,4 Milliarden Parametern. Beide Modelle glänzen in Benchmark-Tests, insbesondere das größere Modell, das Mistral-7B übertrifft und sich schnell der Leistung anderer führender offener Modelle wie Llama 3 und Gemma annähert.

Vaishaal Shankar vom Apple-ML-Team bezeichnet diese Modelle als die „besten verfügbaren“ Open-Source-Optionen. Besonders hervorzuheben ist, dass das Projekt vollständig auf Open-Source-Prinzipien setzt, indem es Modellausgaben, Trainingscode und den Pretraining-Datensatz veröffentlicht hat.

Überblick über die Apple DCLM Modelle

Das DataComp-Projekt ist eine gemeinschaftliche Initiative von Forschern der University of Washington, der Universität Tel Aviv und dem Toyota Institute of Research. Ziel ist es, qualitativ hochwertige Datensätze für das Training von KI-Modellen, insbesondere im multimodalen Bereich, zu erstellen. Das Team verwendet einen standardisierten Rahmen mit festen Modellarchitekturen, Trainingscode, Hyperparametern und Bewertungen, um verschiedene Datenkuratierungsstrategien zu testen und die Modellleistung zu optimieren.

Frühe Experimente zeigten, dass modellbasiertes Filtern—bei dem Machine-Learning-Modelle hochwertige Daten aus größeren Datensätzen filtern und auswählen—eine entscheidende Rolle beim Zusammenstellen überlegener Trainingssätze spielt. Mit dieser Kuratierungstechnik entwickelte das Team den DCLM-Baseline-Datensatz, der beim Training der Decoder-Only-Transformer-Modelle mit 7 Milliarden und 1,4 Milliarden Parametern von Grund auf entscheidend war.

Das 7B-Modell, das auf 2,5 Billionen Token mit OpenLM-Pretraining-Rezepten trainiert wurde, verfügt über ein 2K-Kontextfenster und erreicht 63,7 % 5-Shot-Genauigkeit im MMLU-Benchmark. Dies stellt eine Verbesserung von 6,6 Prozentpunkten im Vergleich zu MAP-Neo, dem vorherigen Spitzenreiter unter den offenen Sprachmodellen, dar, während 40 % weniger Rechenleistung während des Trainings benötigt werden.

Wichtig ist, dass die MMLU-Leistung in engem Vergleich zu führenden Modellen mit offenen Gewichten, aber geschlossenen Daten steht, wie Mistral-7B-v0.3 (62,7 %), Llama3 8B (66,2 %), Googles Gemma (64,3 %) und Microsofts Phi-3 (69,9 %).

Außerdem beobachteten Forscher, dass eine Verlängerung des Modellkontexts auf 8K und 100 Milliarden zusätzliche Trainingsiterationen mit der Dataset-Decomposition-Technik zu weiteren Leistungsverbesserungen bei Core- und Extended-Benchmarks führten, obwohl die MMLU-Ergebnisse stabil blieben. „Unsere Ergebnisse unterstreichen die Bedeutung des Datensatzdesigns beim Training von Sprachmodellen und bilden die Grundlage für laufende Forschungen zur Datenkuratierung“, so die Forscher in einem Beitrag zu DataComp-LM.

Beeindruckende Leistung des kleineren Modells

Ähnlich wie das DCLM-7B zeigt auch das kleinere 1,4B-Modell, das in Zusammenarbeit mit dem Toyota Research Institute unter Verwendung von 2,6 Billionen Token entwickelt wurde, bemerkenswerte Leistungen in MMLU-, Core- und Extended-Tests. Im 5-Shot-MMLU-Test erzielte es 41,9 % und übertraf damit andere Modelle seiner Kategorie, darunter Hugging Faces SmolLM mit 39,97 %. Qwen-1.5B und Phi-1.5B folgten mit 37,87 % bzw. 35,90 %.

Aktuell ist das 7B-Modell unter Apples Sample Code License verfügbar, während das 1,4B-Modell unter Apache 2.0 veröffentlicht wurde und kommerzielle Nutzung, Verbreitung und Modifikation ermöglicht. Zudem ist eine auf Anleitungen abgestimmte Version des 7B-Modells in der Hugging Face-Bibliothek verfügbar.

Es ist wichtig zu betonen, dass diese Veröffentlichung frühe Forschungsarbeit zur Effektivität der Datenkuratierung darstellt. Diese Modelle sind nicht für Apple-Geräte gedacht und können Verzerrungen aus ihren Trainingsdatensätzen aufweisen oder potenziell schädliche Antworten produzieren.

Warum Cyber-Resilienz entscheidend ist: Lehren aus dem jüngsten IT-Ausfall von CrowdStrike

Groqs Open-Source Llama KI-Modell übertrifft GPT-4o und Claude bei der Funktionsausführung und sichert sich den ersten Platz auf der Rangliste.

Most people like

folk

277.5K

Entdecken Sie eine leichte und anpassbare CRM-Lösung, die durch KI-Technologie optimiert ist. Maßgeschneidert für Ihre individuellen Geschäftsbedürfnisse, vereinfacht diese intelligente Plattform das Kundenbeziehungsmanagement und trägt dazu bei, die Effizienz zu steigern und Wachstum zu fördern.

CRM AI CRM Assistant

CapCut

42.3M

Präsentation eines KI-gesteuerten Video-Editing- und Grafikdesign-Tools, das mit allen Plattformen kompatibel ist. Verbessern Sie Ihre kreativen Projekte mühelos mit unserer intuitiven Software, die für jeden geeignet ist, egal ob Sie Anfänger oder Profi sind.

Video-Editor AI Tiktok Assistant

MuseChat

14.6K

Entdecken Sie die Welt der KI-Gesellschaft, in der Technologie auf Verbindung trifft.

KI-Gesellschaft AI Character

Holara - Anime Image Generation

235.6K

Bist du ein Anime-Enthusiast oder ein angehender Künstler, der seine kreativen Visionen verwirklichen möchte? Unsere hochmoderne KI-Plattform bietet dir eine innovative Möglichkeit, atemberaubende Anime-Kunstwerke mühelos zu generieren. Mit einer benutzerfreundlichen Oberfläche und fortschrittlichen Algorithmen kannst du deine Ideen im Handumdrehen in beeindruckende Visuals verwandeln. Schließe dich einer Gemeinschaft von Kreativen an und entfessele deine Fantasie mit unseren leistungsstarken Tools, die speziell für Anime-Kunst entwickelt wurden. Begrüße die Zukunft der Kreativität mit unserer KI-gesteuerten Plattform noch heute!

KI-generierte Kunstwerke AI Anime Art

Find AI tools in YBX