Apple-Forscher haben eine bahnbrechende Methode zur Schulung großer Sprachmodelle (LLMs) entwickelt, die Text- und visuelle Informationen nahtlos integriert. Diese Innovation wird in ihrem Papier mit dem Titel „MM1: Eine Vortraining-Methode für multimodale LLMs, Analyse und Einblicke“ detailliert beschrieben und eröffnet einen neuen Weg zur Schaffung intelligenterer und vielseitigerer KI-Systeme.
Durch den Einsatz eines umfangreichen Datensatzes, der Bild-Beschreibung-Paare, wechselnde Bild-Text-Dokumente und rein textbasierte Daten umfasst, zeigt Apples MM1-Modell überlegene Genauigkeit bei Aufgaben wie der Generierung von Bildunterschriften, visueller Fragenbeantwortung und natürlichem Sprachverständnis. Diese Forschung setzt neue Maßstäbe in der KI, indem sie die Kombination verschiedener Datentypen und Modellarchitekturen betont, wodurch Maschinen in der Lage sind, visuelle und sprachliche Hinweise zu verstehen und darauf basierend Antworten zu generieren. Solche Fähigkeiten sind entscheidend für Aufgaben, die eine komplexe Interpretation der Welt erfordern, wie das Erklären komplizierter Bilder oder das Beantworten von Fragen zu visuellen Elementen.
Das Papier hebt auch die beeindruckenden kontextuellen Lernfähigkeiten des MM1-Modells hervor, insbesondere bei Konfigurationen mit bis zu 3 Milliarden Parametern. Besonders bemerkenswert ist, dass das Modell mithilfe des „Chain-of-Thought“-Reasonings komplexe, offene Probleme mit nur wenigen Beispielen lösen kann.
Diese Forschung stellt einen wichtigen Fortschritt für Apple dar, um seine KI-Fähigkeiten angesichts harter Konkurrenz zu verbessern. Jüngste Berichte deuten darauf hin, dass Apple Gespräche mit Google führt, um sein generatives LLM Gemini zu lizenzieren, um bevorstehende Funktionen für iOS 18 auf dem iPhone zu unterstützen.