Meta hat bedeutende Fortschritte im Bereich der generativen KI mit der Einführung seines verbesserten Bildgenerierungsmodells Emu (Expressive Media Universe) erzielt. Dieses leistungsstarke Modell kann jetzt Videos aus Text generieren und bietet verbesserte Funktionen für präzises Bildbearbeiten.
Emus Technologie wurde erstmals während des Meta Connect-Events im September präsentiert und dient als Grundlage für zahlreiche dynamische generative KI-Erlebnisse auf Metas sozialen Medien. Beispielsweise verbessert sie die Bildbearbeitungswerkzeuge auf Instagram, sodass Nutzer den visuellen Stil oder den Hintergrund eines Fotos nahtlos ändern können. Emu ist in Meta AI integriert, einer neuen Plattform für Benutzerassistenten, die ähnlich wie OpenAI’s ChatGPT funktioniert.
Das neue Emu Video-Modell zeichnet sich durch die Fähigkeit aus, Videos auf Basis von natürlichem Text, Bildern oder einer Kombination aus beidem zu erstellen. Im Gegensatz zu früheren Modellen wie Make-a-Video, die auf fünf Diffusionsmodellen basierten, verwendet Emu Video einen rationalisierten Ansatz mit nur zwei Modellen. Der Prozess verläuft in zwei Hauptschritten: Zuerst wird ein Bild basierend auf dem Text prompt generiert, gefolgt von der Erstellung eines Videos, das durch Text- und Bildanweisungen geleitet wird. Diese vereinfachte Methodik ermöglicht ein effizienteres Training von Videogenerierungsmodellen. In Nutzerstudien übertraf Emu Video Make-a-Video: 96 % der Teilnehmer bevorzugten die Qualität und 85 % stimmten zu, dass es näher an ihren Textanweisungen arbeitete. Zudem kann Emu Video von Nutzern hochgeladene Bilder zum Leben erwecken und sie entsprechend spezifischer Textanweisungen animieren.
Ein weiteres spannendes Update ist die Einführung von Emu Edit, die die Bearbeitungsmöglichkeiten von Bildern durch natürliche Sprachbefehle verbessert. Nutzer können ein Bild hochladen und die gewünschten Anpassungen angeben. Zum Beispiel können sie verlangen, ein Element wie einen Pudel zu entfernen und stattdessen ein anderes Objekt, wie eine rote Bank, einzufügen – einfach durch die Eingabe ihrer Anfrage. Während es bereits KI-unterstützte Bildänderungstools wie ClipDrop und Bildbearbeitungsfunktionen von Runway gibt, stellten Metas Forscher fest, dass bestehende Methoden oft zu Überbearbeitung oder unzureichender Leistung bei Bearbeitungsaufgaben führen.
In einem Blogbeitrag betonte Meta, dass das Ziel nicht nur darin bestehen sollte, ein „glaubwürdiges“ Bild zu erstellen, sondern sich auch darauf zu konzentrieren, ausschließlich die für die spezifische Anfrage des Nutzers relevanten Pixel zu modifizieren. Das Team entdeckte, dass die Integration von Computer Vision-Aufgaben als Anweisungen für Bildgenerierungsmodelle unvergleichliche Kontrolle im Bearbeitungsprozess bietet.
Zur Entwicklung von Emu Edit nutzte Meta einen umfassenden Datensatz von 10 Millionen synthetisierten Bildern, die jeweils aus einem Eingabebild, einer detaillierten Aufgabenbeschreibung und dem Zielbild bestanden. Dies ermöglicht es dem Modell, eng an den Benutzeranweisungen zu bleiben, während die Integrität nicht verwandter Elemente im Originalbild gewahrt bleibt.
Interessierte können die Funktionen von Emu Edit auf Hugging Face erkunden. Zudem hat Meta das Emu Edit Test Set eingeführt, einen neuen Benchmark zur weiteren Testung von Bildbearbeitungsmodellen. Dieses Set umfasst sieben verschiedene Bildbearbeitungsaufgaben, wie Hintergrundänderungen und Elemententfernung, und ebnet den Weg für Fortschritte in der präzisen Bildbearbeitungstechnologie.