Forscher am Alibaba Institute for Intelligent Computing haben “EMO” (Emote Portrait Alive) vorgestellt, ein innovatives KI-System, das in der Lage ist, ein einzelnes Porträtfoto zu animieren und lebensechte Videos von Personen zu erstellen, die sprechen oder singen.
Wie in einem Forschungsbericht auf arXiv beschrieben, erzeugt EMO flüssige und ausdrucksstarke Gesichtbewegungen sowie Kopfhaltungen, die eng mit den Nuancen des bereitgestellten Audiotracks übereinstimmen. Dies stellt einen bedeutenden Fortschritt in der audio-basierten Generierung von Talking-Head-Videos dar, ein Bereich, der für KI-Forscher über Jahre hinweg Herausforderungen mit sich brachte.
„Traditionelle Techniken haben oft Schwierigkeiten, das gesamte Spektrum menschlicher Ausdrucksformen und die Einzigartigkeit individueller Gesichtsstile zu erfassen“, erklärte Hauptautorin Linrui Tian. „Um diese Herausforderungen zu überwinden, schlagen wir EMO vor, ein neuartiges Framework, das einen direkten Audio-zu-Video-Syntheseansatz nutzt und somit auf 3D-Modelle oder Gesichtspunkte verzichten kann.“
Direkte Audio-zu-Video-Konvertierung
Das EMO-System nutzt ein Diffusionsmodell, eine leistungsstarke KI-Technik, die für die Erzeugung realistischer synthetischer Bilder bekannt ist. Die Forscher trainierten EMO mit einem Datensatz von über 250 Stunden Talking-Head-Videos aus Reden, Filmen, TV-Shows und Musikaufführungen.
Im Gegensatz zu früheren Methoden, die auf 3D-Gesichtsmodellen oder Blend Shapes basieren, transformiert EMO direkt Audiowellenformen in Videoframes. Diese Fähigkeit ermöglicht es, subtile Bewegungen und einzigartige Merkmale natürlicher Sprache einzufangen.
Überlegene Videoqualität und Ausdrucksstärke
Laut den Forschungsergebnissen übertrifft EMO bestehende hochmoderne Methoden erheblich in Bezug auf Videoqualität, Identitätserhalt und Ausdrucksstärke. Eine Benutzerstudie zeigte, dass die von EMO generierten Videos als natürlicher und emotionaler wahrgenommen wurden als die von konkurrierenden Systemen.
Realistische Gesangsanimation
Zusätzlich zu konversationellen Videos kann EMO auch singende Porträts animieren und realistische Mundbewegungen sowie ausdrucksstarke Gesichtszüge erzeugen, die mit Gesangsdarbietungen synchronisiert sind. Das System kann Videos beliebiger Länge basierend auf der Dauer des eingegebenen Audios generieren.
„Experimentelle Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Gesangsanimationen in verschiedenen Stilen produziert, und dabei bestehende Methoden in Ausdrucksstärke und Realismus weit übertrifft“, heißt es in der Forschung.
Die Entwicklungen, die durch EMO vorgestellt werden, deuten auf eine Zukunft hin, in der personalisierte Videoinhalte leicht aus einem einzigen Foto und einem Audioclip synthetisiert werden können. Dennoch bestehen ethische Bedenken hinsichtlich des möglichen Missbrauchs dieser Technologie für Identitätsdiebstahl oder Fehlinformationen. Die Forscher sind bestrebt, Methoden zur Erkennung von synthetischen Videos zu erforschen, um diese Probleme anzugehen.