Apple präsentiert MM1.5: Ein multimodales KI-Modell im Wert von 30 Milliarden Dollar mit Funktionen zur Bilderkennung und zum Verständnis natürlicher Sprache.

Home KI-Nachrichten Apple präsentiert MM1.5: Ein multimodales KI-Modell im Wert von 30 Milliarden Dollar mit Funktionen zur Bilderkennung und zum Verständnis natürlicher Sprache.

Updated on Oktober 14 2024

Apple hat kürzlich sein neuestes multimodales KI-Modell MM1.5 mit einer Parameteranzahl von 30 Milliarden vorgestellt. Diese Version baut auf dem vorherigen Modell MM1 auf und bietet erhebliche Verbesserungen.

MM1.5 folgt den datengestützten Trainingsprinzipien und untersucht genau, wie sich gemischte Daten auf die Leistung des Modells in verschiedenen Trainingszyklen auswirken. Die Dokumentation des neuen Modells wurde auf der Plattform Hugging Face veröffentlicht. Sie bietet eine Vielzahl von Parameterkonfigurationen von 1 Milliarde bis 30 Milliarden und demonstriert Fähigkeiten in der Bild- und Textverständnis.

Im Rahmen dieses Updates hat Apples Forschungsteam die Datenmix-Strategie optimiert, was zu erheblichen Leistungssteigerungen des Modells in Bereichen wie der Mehrtext-Bilderkennung, visueller Referenzierung und Lokalisierung sowie im mehrbildhaften Denken geführt hat. Studien zeigen, dass während der Vortrainingsphase von MM1.5 die Einbindung hochwertiger OCR-Daten und synthetischer Bildbeschreibungen die Fähigkeit des Modells, Bilder mit umfangreichem Text zu verstehen, erheblich verbessert hat. Darüber hinaus analysierte das Team in der Phase des überwachten Feintunings die Auswirkungen verschiedener Datentypen auf die Modellleistung und optimierte die Konfigurationen der visuellen Instruktionsdaten, sodass selbst kleinere Modelle (wie jene mit 1 Milliarde und 3 Milliarden Parametern) bemerkenswerte Ergebnisse erzielen können.

Darüber hinaus hat Apple spezialisierte Modelle wie MM1.5-Video für das Verständnis von Videos und MM1.5-UI für die Benutzeroberflächen (UI)-Verständlichkeit auf mobilen Geräten eingeführt. Das MM1.5-UI-Modell wird zur Grundlage von Apples KI im iOS-Ökosystem, indem es effizient visuelle Referenzierungs- und Lokalisierungsaufgaben bewältigt, Bildschirmfunktionen zusammenfasst und durch Benutzerinteraktionen kommuniziert.

Trotz der herausragenden Leistung des MM1.5-Modells über verschiedene Benchmarks hinweg arbeitet Apples Team daran, die KI-Fähigkeiten weiter zu verbessern, indem es Text-, Bild- und Benutzerdaten integriert, um komplexere Architekturen zu entwickeln. Dieses fortwährende Engagement zielt darauf ab, die Effektivität der „Apple-Marke“-KI zu stärken und ihre Leistungsfähigkeit im Verständnis von Benutzeroberflächen mobiler Geräte zu erhöhen.

NVIDIA-CEO Jensen Huang stellt sich eine Zukunft mit 50.000 Mitarbeitenden und 100 Millionen KI-Assistenten vor.

Effizienzsteigerung bei der Erstellung von KI-Prompts: Neues Meta-Prompt-Tool jetzt im OpenAI Playground verfügbar

Most people like

Studyflash

96.2K

Entdecken Sie die Kraft unserer KI-gestützten Plattform, die darauf ausgelegt ist, Ihre Lerneffizienz zu steigern. Mit fortschrittlichen Algorithmen und personalisierten Strategien ermöglicht dieses innovative Werkzeug den Studierenden, ihr Lernen zu optimieren, das Behalten zu fördern und akademischen Erfolg zu erzielen. Verändern Sie noch heute Ihre Lernweise!

KI-gestützt Homework Helper

BgRem

277.6K

BgRem ist eine fortschrittliche KI-Plattform, die für die nahtlose Erstellung und Bearbeitung von Bildern und Videos entwickelt wurde. Ob Sie ein Content Creator, Marketer oder Hobbynutzer sind, BgRem optimiert Ihren Workflow und hilft Ihnen, beeindruckende visuelle Inhalte mühelos zu erstellen.

KI-Tools AI Tools Directory

Hydra - Advanced AI Music Generation from Rightsify

19.9K

Entdecken Sie die Welt der KI-Musikgenerierung, in der modernste Technologie einzigartige instrumentale Musik und fesselnde Soundeffekte nach Ihren Wünschen kreiert. Erleben Sie, wie künstliche Intelligenz die Musikkomposition revolutioniert und eine innovative Lösung für Künstler, Filmemacher und Content-Ersteller bietet, die nach originellem Audio suchen.

KI-Musikgenerierung AI Content Generator

Textbuddy.com

8.2K

Textbuddy.com ist ein leistungsstarkes Tool, das Schreibenden dabei hilft, die Klarheit und Prägnanz ihrer Texte zu verbessern. Durch die Analyse von Texten in einfachem, klarem Englisch optimiert Textbuddy.com den Schreibprozess und stellt sicher, dass Ihre Botschaft effektiv bei den Lesern ankommt.

Andere Writing Assistants

Find AI tools in YBX