Microsoft stellt VASA-1 vor: Ein KI-Framework, das menschliche Kopfaufnahmen mit Stimme und Gesang zum Leben erweckt.

Microsoft hat mit der Einführung von VASA-1 einen bedeutenden Fortschritt in der KI-gestützten Inhaltserstellung erzielt. Dieses bahnbrechende Framework verwandelt statische menschliche Porträts in dynamische Videos, in denen gesprochen und gesungen wird. Dieses Projekt markiert einen bemerkenswerten Wandel im Bereich der KI-generierten Inhalte und benötigt nur minimale Eingaben: ein Einzelbild und eine Audiodatei. VASA-1 erweckt diese Bilder zum Leben und ermöglicht realistisches Lippen-Synchronisieren, Ausdruck und Kopfbewegungen.

AI-Agents im Fokus

Microsoft präsentierte verschiedene Beispiele für die Fähigkeiten von VASA-1, darunter eine auffällige Darstellung der Mona Lisa im Rap-Stil. Das Unternehmen erkennt jedoch die potenziellen Risiken der Deepfake-Technologie an und stellte klar, dass VASA-1 derzeit eine Forschungsdemonstration ist, ohne unmittelbare Pläne zur Kommerzialisierung.

Statische Bilder zum Leben erwecken

Die heutigen KI-Tools für Videoinhalte können sowohl nützliche als auch schädliche Zwecke erfüllen. Sie können ansprechende Werbung erstellen, könnten jedoch auch für schädliche Deepfakes missbraucht werden. Interessanterweise gibt es positive Anwendungen der Deepfake-Technologie; beispielsweise kann ein Künstler zustimmen, sein digitales Abbild für Werbezwecke zu erstellen. VASA-1 balanciert diesen sensiblen Bereich, indem es „lebensnahe sprechende Gesichter virtueller Charaktere erzeugt“ und sie mit visuellen affektiven Fähigkeiten (VAS) anreichert.

Laut Microsoft kann das Modell ein Standbild einer Person und eine Sprach-Audiodatei verwenden, um ein Video zu produzieren, das Lippenbewegungen mit dem Audio synchronisiert und eine Vielzahl von Emotionen, subtilen Gesichtsausdrücken und natürlichen Kopfbewegungen enthält. Das Unternehmen stellte Beispiele zur Verfügung, die zeigen, wie ein einzelnes Porträt in ein Video des Sprechens oder Singens der Person verwandelt werden kann.

„Die zentralen Innovationen umfassen ein ganzheitliches Modell zur Generierung von Gesichtsdynamik und Kopfbewegungen, das im latenten Gesichtsraum arbeitet, sowie die Schaffung eines ausdrucksvollen und entkoppelten latenten Gesichtsraums mithilfe von Videos“, erklärten die Forscher auf der Unternehmenswebsite.

Benutzerkontrolle über die KI-Generierung

VASA-1 bietet den Nutzern eine präzise Kontrolle über die generierten Inhalte, sodass sie Bewegungsequenzen, Augenrichtung, Kopfposition und emotionale Ausdrucksweise einfach über Schieberegler anpassen können. Es kann auch mit verschiedenen Arten von Inhalten arbeiten, einschließlich künstlerischer Bilder, Gesangsaudios und nicht-englischer Sprache.

Zukunft der VASA-Implementierung

Obwohl Microsofts Beispielvideos realistisch wirken, offenbaren einige Clips die KI-generierte Natur, da Bewegungen an Flüssigkeit vermissen lassen. Der Ansatz produziert Videos mit 512 x 512 Pixeln und bis zu 45 Frames pro Sekunde in der Offline-Bearbeitung, unterstützt 40 Frames pro Sekunde beim Streaming. Microsoft behauptet, dass VASA-1 bestehende Methoden in umfassenden Tests mit neuen Metriken übertreffe.

Es ist jedoch entscheidend, das Potenzial für Missbrauch zur fehlerhaften Darstellung von Personen zu erkennen. Daher hat Microsoft entschieden, VASA-1 nicht als kommerzielles Produkt oder API zu veröffentlichen. Das Unternehmen betonte, dass alle in den Democlips verwendeten Porträts KI-generiert seien und dass die Technologie hauptsächlich darauf abzielt, positive visuelle affektive Fähigkeiten für virtuelle KI-Avatare zu schaffen, nicht täuschende Inhalte.

Langfristig sieht Microsoft in VASA-1 den Weg zu lebensechten Avataren, die menschliche Bewegungen und Emotionen nachahmen. Dieser Fortschritt könnte die Chancengleichheit in der Bildung verbessern, die Barrierefreiheit für Menschen mit Kommunikationsschwierigkeiten erhöhen und Begleitung oder therapeutische Unterstützung für Bedürftige bieten.

Most people like

Find AI tools in YBX