Microsofts neuestes KI-Video-Modell verbessert die technologiegestützte Erstellung von Videos auf Grundlage von Trajektorien.

AI-Unternehmen stehen in einem intensiven Wettbewerb zur Weiterentwicklung der Videogenerierungstechnologie. In den letzten Monaten haben wichtige Akteure wie Stability AI und Pika Labs Modelle vorgestellt, die Videos aus Text- und Bildaufforderungen erstellen. Auf diesen Fortschritten aufbauend hat Microsoft ein neues Modell namens DragNUWA eingeführt, das eine verbesserte Kontrolle in der Videoproduktion ermöglicht.

DragNUWA erweitert die herkömmlichen Methoden zur Eingabe von Text und Bildern, indem es eine pfadbasierte Generierung integriert, die es Nutzern erlaubt, Objekte oder gesamte Videorahmen entlang spezifischer Trajektorien zu manipulieren. Diese Innovation bietet präzise Kontrolle über semantische, räumliche und zeitliche Aspekte der Videokreation und gewährleistet gleichzeitig hochwertige Ergebnisse.

Microsoft hat die Gewichte des Modells sowie eine Demo veröffentlicht und lädt die Community ein, mit DragNUWA zu experimentieren. Es ist jedoch wichtig anzumerken, dass dies ein Forschungsprojekt bleibt und noch nicht vollständig optimiert ist.

Was macht Microsoft DragNUWA einzigartig?

Die KI-gesteuerte Videogenerierung basierte bisher häufig auf Text-, Bild- oder Trajektorien-Eingaben, jedoch bieten diese Methoden oft nicht die gewünschte Detailkontrolle. Beispielsweise kann das alleinige Verlassen auf Text und Bilder wichtige Bewegungsdetails verpassen, die für Videos entscheidend sind, und Sprache allein kann mehrdeutig sein, wenn es um abstrakte Konzepte geht.

Im August 2023 stellte Microsofts KI-Team DragNUWA vor, ein Open-Domain-diffusionsbasiertes Videogenerierungsmodell, das Bilder, Text und Trajektorien integriert, um eine präzise Videokontrolle zu ermöglichen. Nutzer können spezifische Texte, Bilder und Trajektorien definieren, um verschiedene Elemente wie Kamerabewegungen und Objektbewegungen im resultierenden Video zu steuern.

So können Nutzer beispielsweise ein Bild eines Bootes auf Wasser hochladen, es mit der Textaufforderung „ein Boot, das auf dem See segelt“ kombinieren und Anweisungen zur Bewegung des Bootes geben. Diese Eingabe generiert ein Video, in dem das Boot wie angegeben navigiert, wobei die Trajektorie die Bewegungsdetails präzisiert, die Sprache die zukünftigen Objekte umreißt und die Bilder zwischen den Subjekten unterscheiden.

DragNUWA in Aktion

Die frühe Version 1.5 von DragNUWA wurde gerade auf Hugging Face veröffentlicht und nutzt das Stable Video Diffusion Modell von Stability AI, um Bilder basierend auf definierten Pfaden zu animieren. Mit der Weiterentwicklung dieser Technologie verspricht sie, die Videogenerierung und -bearbeitung zu vereinfachen. Stellen Sie sich vor, Hintergründe zu transformieren, Bilder zu animieren und Bewegungen mit einer einfachen Linie zu steuern.

AI-Enthusiasten sind begeistert von diesem Fortschritt und sehen darin einen bedeutenden Schritt in der kreativen KI. Dennoch bleibt die reale Leistung des Modells abzuwarten. Erste Tests zeigen, dass DragNUWA Kamerabewegungen und Objektbewegungen entlang verschiedener Ziehtrajektorien präzise ausführen kann.

„DragNUWA unterstützt komplexe gekrümmte Trajektorien, die es Objekten ermöglichen, sich entlang ausgefeilter Pfade zu bewegen. Es berücksichtigt auch variable Trajektorienlängen, was größere Bewegungsamplituden erlaubt. Darüber hinaus kann DragNUWA die Trajektorien mehrerer Objekte gleichzeitig steuern. Soweit wir wissen, hat kein anderes Videogenerierungsmodell eine so präzise Trajektorienkontrolle erreicht, was das Potenzial von DragNUWA zur Weiterentwicklung der Videogenerierungstechnologie unterstreicht“, erklärten Microsoft-Forscher in ihrer Arbeit.

Diese Entwicklungen tragen zur ständig wachsenden Forschung im Bereich der KI-Videos bei. Kürzlich erregte Pika Labs Aufmerksamkeit mit seiner Text-zu-Video-Schnittstelle, ähnlich wie ChatGPT, die hochwertige Kurzvideos mit verschiedenen Anpassungsoptionen erzeugt.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles