Apple präsentiert MM1.5: Ein multimodales KI-Modell im Wert von 30 Milliarden Dollar mit Funktionen zur Bilderkennung und zum Verständnis natürlicher Sprache.

Apple hat kürzlich sein neuestes multimodales KI-Modell MM1.5 mit einer Parameteranzahl von 30 Milliarden vorgestellt. Diese Version baut auf dem vorherigen Modell MM1 auf und bietet erhebliche Verbesserungen.

MM1.5 folgt den datengestützten Trainingsprinzipien und untersucht genau, wie sich gemischte Daten auf die Leistung des Modells in verschiedenen Trainingszyklen auswirken. Die Dokumentation des neuen Modells wurde auf der Plattform Hugging Face veröffentlicht. Sie bietet eine Vielzahl von Parameterkonfigurationen von 1 Milliarde bis 30 Milliarden und demonstriert Fähigkeiten in der Bild- und Textverständnis.

Im Rahmen dieses Updates hat Apples Forschungsteam die Datenmix-Strategie optimiert, was zu erheblichen Leistungssteigerungen des Modells in Bereichen wie der Mehrtext-Bilderkennung, visueller Referenzierung und Lokalisierung sowie im mehrbildhaften Denken geführt hat. Studien zeigen, dass während der Vortrainingsphase von MM1.5 die Einbindung hochwertiger OCR-Daten und synthetischer Bildbeschreibungen die Fähigkeit des Modells, Bilder mit umfangreichem Text zu verstehen, erheblich verbessert hat. Darüber hinaus analysierte das Team in der Phase des überwachten Feintunings die Auswirkungen verschiedener Datentypen auf die Modellleistung und optimierte die Konfigurationen der visuellen Instruktionsdaten, sodass selbst kleinere Modelle (wie jene mit 1 Milliarde und 3 Milliarden Parametern) bemerkenswerte Ergebnisse erzielen können.

Darüber hinaus hat Apple spezialisierte Modelle wie MM1.5-Video für das Verständnis von Videos und MM1.5-UI für die Benutzeroberflächen (UI)-Verständlichkeit auf mobilen Geräten eingeführt. Das MM1.5-UI-Modell wird zur Grundlage von Apples KI im iOS-Ökosystem, indem es effizient visuelle Referenzierungs- und Lokalisierungsaufgaben bewältigt, Bildschirmfunktionen zusammenfasst und durch Benutzerinteraktionen kommuniziert.

Trotz der herausragenden Leistung des MM1.5-Modells über verschiedene Benchmarks hinweg arbeitet Apples Team daran, die KI-Fähigkeiten weiter zu verbessern, indem es Text-, Bild- und Benutzerdaten integriert, um komplexere Architekturen zu entwickeln. Dieses fortwährende Engagement zielt darauf ab, die Effektivität der „Apple-Marke“-KI zu stärken und ihre Leistungsfähigkeit im Verständnis von Benutzeroberflächen mobiler Geräte zu erhöhen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles