Apple hat ein bahnbrechendes Open-Source-KI-Modell namens „MGIE“ (MLLM-Guided Image Editing) vorgestellt, das darauf ausgelegt ist, Bilder basierend auf natürlichen Sprachbefehlen zu bearbeiten. Durch die Nutzung multimodaler großer Sprachmodelle (MLLMs) interpretiert MGIE Benutzeranweisungen und führt präzise Pixelanpassungen durch. Das Modell exceliert in verschiedenen Bearbeitungsaufgaben, einschließlich Photoshop-artiger Anpassungen, globaler Optimierung und lokalisierter Bearbeitungen.
Dieses innovative Modell ist das Ergebnis einer Zusammenarbeit zwischen Apple und Forschern der University of California, Santa Barbara, und wurde auf der International Conference on Learning Representations (ICLR) 2024, einer führenden Konferenz der KI-Forschung, präsentiert. Das Forschungspapier zeigt die Wirksamkeit von MGIE bei der Verbesserung automatischer Metriken und menschlicher Bewertungen, während gleichzeitig eine wettbewerbsfähige Inferenz-Effizienz gewährleistet wird.
Wie funktioniert MGIE?
MGIE nutzt die Leistungsfähigkeit von MLLMs, die sowohl Text als auch visuelle Inhalte verstehen können, um die bildbasierte Bearbeitung auf Grundlage von Anweisungen zu verfeinern. Traditionell wurden MLLMs in Bildbearbeitungsaufgaben untergenutzt, obwohl sie über beeindruckende Fähigkeiten im cross-modalem Verständnis verfügen.
MGIE integriert MLLMs auf zwei Hauptarten in den Bearbeitungsworkflow:
1. Ableitung expressiver Anweisungen: MGIE wandelt Benutzeranfragen in präzise Bearbeitungsanweisungen um. Zum Beispiel könnte der Befehl „Mach den Himmel blauer“ in die Anweisung „Erhöhe die Sättigung des Himmelbereichs um 20%“ umgesetzt werden.
2. Generierung visueller Vorstellungskraft: Das Modell erstellt eine latente Repräsentation der gewünschten Bearbeitung, die pixelgenaue Anpassungen steuert. MGIE nutzt ein neuartiges End-to-End-Trainingsschema, das Anweisungsableitung, visuelle Repräsentation und Bearbeitungsfunktionen optimal kombiniert.
Was kann MGIE?
MGIE ist vielseitig einsetzbar und kann eine Vielzahl von Bearbeitungsszenarien bewältigen, von grundlegenden Farbkorrekturen bis hin zu komplexen Objekten. Zu den Funktionen gehören:
- Ausdrucksvolle anweisungsbasierte Bearbeitung: Produziert klare Anweisungen, die sowohl die Qualität der Bearbeitung als auch die Benutzererfahrung verbessern.
- Photoshop-artige Modifikationen: Führt gängige Bearbeitungen wie Zuschneiden, Größenänderungen, Rotationen sowie fortgeschrittene Anpassungen wie Hintergrundersatz und Objektverblendung durch.
- Globale Fotooptimierung: Verbessert die Gesamtqualität des Bildes, indem Helligkeit, Kontrast, Schärfe angepasst und künstlerische Effekte angewendet werden.
- Lokale Bearbeitung: Zielt auf spezifische Bereiche eines Bildes ab (z.B. Gesichter, Kleidung) und ermöglicht es Benutzern, Attribute wie Größe, Farbe und Textur zu modifizieren.
Wie verwendet man MGIE?
MGIE ist als Open-Source-Projekt auf GitHub verfügbar und bietet Benutzern Code, Daten und vortrainierte Modelle. Ein Demobuch zeigt verschiedene Bearbeitungsaufgaben, und Benutzer können MGIE über eine Online-Demo auf Hugging Face Spaces ausprobieren.
Das benutzerfreundlich gestaltete MGIE ermöglicht es, natürliche Sprachbefehle einzugeben, um bearbeitete Bilder und detaillierte Anweisungen zu erhalten. Benutzer können Feedback geben, um Bearbeitungen zu verfeinern oder Alternativen anzufordern, was eine Anpassung für die Integration mit anderen Anwendungen, die Bildbearbeitungsfunktionen benötigen, ermöglicht.
Warum ist MGIE wichtig?
MGIE stellt einen bedeutenden Fortschritt in der anweisungsbasierten Bildbearbeitung dar – einem entscheidenden Bereich zur Förderung der Kreativität sowohl in der KI als auch beim Menschen. Es zeigt die Möglichkeiten auf, die MLLMs in der Bildbearbeitung bieten, und erleichtert neue cross-modale Interaktionen.
Über ihre Forschung hinaus dient MGIE als praktisches Werkzeug für verschiedene Anwendungen und hilft den Benutzern, Bilder für persönliche und berufliche Kontexte, einschließlich sozialer Medien, E-Commerce und kreativer Künste, zu erstellen und zu optimieren. Es ermächtigt die Benutzer, ihre Ideen visuell auszudrücken und fördert kreative Exploration.
Für Apple unterstreicht MGIE die wachsende Führungsrolle des Unternehmens in der KI-Forschung und -Entwicklung und zeigt die sich erweiternden maschinellen Lernfähigkeiten mit einem Fokus auf die Verbesserung alltäglicher kreativer Aufgaben. Obwohl MGIE eine bemerkenswerte Errungenschaft ist, erkennen Experten den fortlaufenden Bedarf an Fortschritten in multimodalen KI-Systemen an. Dennoch deutet der rasante Fortschritt in diesem Bereich darauf hin, dass assistive KI wie MGIE bald ein unverzichtbares Werkzeug für Kreativität werden könnte.