Metas Bildgenerator-Modell erweitert sich: Jetzt mit Video- und verbesserten Bildbearbeitungsfunktionen

Home KI-Nachrichten Metas Bildgenerator-Modell erweitert sich: Jetzt mit Video- und verbesserten Bildbearbeitungsfunktionen

Updated on Oktober 25 2024

Meta hat bedeutende Fortschritte im Bereich der generativen KI mit der Einführung seines verbesserten Bildgenerierungsmodells Emu (Expressive Media Universe) erzielt. Dieses leistungsstarke Modell kann jetzt Videos aus Text generieren und bietet verbesserte Funktionen für präzises Bildbearbeiten.

Emus Technologie wurde erstmals während des Meta Connect-Events im September präsentiert und dient als Grundlage für zahlreiche dynamische generative KI-Erlebnisse auf Metas sozialen Medien. Beispielsweise verbessert sie die Bildbearbeitungswerkzeuge auf Instagram, sodass Nutzer den visuellen Stil oder den Hintergrund eines Fotos nahtlos ändern können. Emu ist in Meta AI integriert, einer neuen Plattform für Benutzerassistenten, die ähnlich wie OpenAI’s ChatGPT funktioniert.

Das neue Emu Video-Modell zeichnet sich durch die Fähigkeit aus, Videos auf Basis von natürlichem Text, Bildern oder einer Kombination aus beidem zu erstellen. Im Gegensatz zu früheren Modellen wie Make-a-Video, die auf fünf Diffusionsmodellen basierten, verwendet Emu Video einen rationalisierten Ansatz mit nur zwei Modellen. Der Prozess verläuft in zwei Hauptschritten: Zuerst wird ein Bild basierend auf dem Text prompt generiert, gefolgt von der Erstellung eines Videos, das durch Text- und Bildanweisungen geleitet wird. Diese vereinfachte Methodik ermöglicht ein effizienteres Training von Videogenerierungsmodellen. In Nutzerstudien übertraf Emu Video Make-a-Video: 96 % der Teilnehmer bevorzugten die Qualität und 85 % stimmten zu, dass es näher an ihren Textanweisungen arbeitete. Zudem kann Emu Video von Nutzern hochgeladene Bilder zum Leben erwecken und sie entsprechend spezifischer Textanweisungen animieren.

Ein weiteres spannendes Update ist die Einführung von Emu Edit, die die Bearbeitungsmöglichkeiten von Bildern durch natürliche Sprachbefehle verbessert. Nutzer können ein Bild hochladen und die gewünschten Anpassungen angeben. Zum Beispiel können sie verlangen, ein Element wie einen Pudel zu entfernen und stattdessen ein anderes Objekt, wie eine rote Bank, einzufügen – einfach durch die Eingabe ihrer Anfrage. Während es bereits KI-unterstützte Bildänderungstools wie ClipDrop und Bildbearbeitungsfunktionen von Runway gibt, stellten Metas Forscher fest, dass bestehende Methoden oft zu Überbearbeitung oder unzureichender Leistung bei Bearbeitungsaufgaben führen.

In einem Blogbeitrag betonte Meta, dass das Ziel nicht nur darin bestehen sollte, ein „glaubwürdiges“ Bild zu erstellen, sondern sich auch darauf zu konzentrieren, ausschließlich die für die spezifische Anfrage des Nutzers relevanten Pixel zu modifizieren. Das Team entdeckte, dass die Integration von Computer Vision-Aufgaben als Anweisungen für Bildgenerierungsmodelle unvergleichliche Kontrolle im Bearbeitungsprozess bietet.

Zur Entwicklung von Emu Edit nutzte Meta einen umfassenden Datensatz von 10 Millionen synthetisierten Bildern, die jeweils aus einem Eingabebild, einer detaillierten Aufgabenbeschreibung und dem Zielbild bestanden. Dies ermöglicht es dem Modell, eng an den Benutzeranweisungen zu bleiben, während die Integrität nicht verwandter Elemente im Originalbild gewahrt bleibt.

Interessierte können die Funktionen von Emu Edit auf Hugging Face erkunden. Zudem hat Meta das Emu Edit Test Set eingeführt, einen neuen Benchmark zur weiteren Testung von Bildbearbeitungsmodellen. Dieses Set umfasst sieben verschiedene Bildbearbeitungsaufgaben, wie Hintergrundänderungen und Elemententfernung, und ebnet den Weg für Fortschritte in der präzisen Bildbearbeitungstechnologie.

KI-System erkennt seltene Krankheiten schnell mit minimalen Datenressourcen.

OpenAI entlässt CEO Sam Altman: Was bedeutet das für die Zukunft der KI?

Most people like

Circleback

72.6K

Circleback ist ein leistungsstarker KI-Meeting-Assistent, der sichere und effiziente Besprechungsnotizen bereitstellt und sicherstellt, dass Sie jedes wichtige Detail mühelos festhalten.

KI AI Notes Assistant

Minvo

89.9K

Entdecken Sie die Möglichkeiten unseres KI-Video-Editing-Tools, das speziell entwickelt wurde, um lange Videos mühelos in ansprechende Kurzclips zu verwandeln. Optimieren Sie Ihren Videoerstellungsprozess und begeistern Sie Ihr Publikum mit prägnanten, wirkungsvollen Inhalten.

KI-Videobearbeitung Captions or Subtitle

DeepL

202.2M

DeepL ist ein leistungsstarkes Übersetzungstool, das sofortige und hochpräzise Übersetzungen für Texte und Dokumente liefert. Mit seiner fortschrittlichen Technologie gewährleistet es Klarheit und Genauigkeit und ist damit eine der besten Optionen für reibungslose Kommunikation über Sprachgrenzen hinweg.

Übersetzer Translate

Finvi

15K

Einführung einer KI-gestützten Workflow-Plattform für den ARM- und Gesundheitssektor Entdecken Sie, wie unsere fortschrittliche KI-gesteuerte Workflow-Plattform das Forderungsmanagement (ARM) und die Gesundheitsbranche transformiert. Durch die Straffung von Prozessen und die Verbesserung der betrieblichen Effizienz ermöglicht unsere Plattform Organisationen, ihre Workflows zu optimieren, die Patientenergebnisse zu verbessern und den Umsatzzyklus zu beschleunigen. Erforschen Sie die Zukunft der Brancheninnovation mit modernster Technologie, die auf Ihre Bedürfnisse zugeschnitten ist.

KI-gesteuerte Workflow-Plattform Healthcare

Find AI tools in YBX