Le système innovant d'IA d'Alibaba, 'EMO', génère des vidéos de conversation et de chant réalistes à partir de vos photos.

Les chercheurs de l'Institut de calcul intelligent d'Alibaba ont dévoilé "EMO" (Emote Portrait Alive), un système d'IA innovant capable d'animer une seule photo de portrait pour créer des vidéos réalistes d'individus parlant ou chantant.

Comme l'expose un article de recherche sur arXiv, EMO génère des mouvements faciaux fluides et expressifs ainsi que des poses de tête alignées avec les nuances de la piste audio fournie. Cela représente une avancée significative dans la génération de vidéos de têtes parlantes synchronisées sur l'audio, un domaine qui a posé des défis aux chercheurs en IA pendant des années.

« Les techniques traditionnelles ont souvent du mal à capturer toute la gamme des expressions humaines et l'unicité des styles faciaux individuels, » explique Linrui Tian, auteur principal. « Pour surmonter ces défis, nous proposons EMO, un cadre novateur qui utilise une approche directe de synthèse audio-vidéo, supprimant le besoin de modèles 3D ou de repères faciaux. »

Conversion Directe Audio-Vidéo

Le système EMO s'appuie sur un modèle de diffusion, une technique d'IA puissante reconnue pour sa capacité à générer des images synthétiques réalistes. Les chercheurs ont entraîné EMO sur un ensemble de données de plus de 250 heures de vidéos de têtes parlantes provenant de discours, de films, d'émissions de télévision et de performances musicales.

Contrairement aux méthodes antérieures qui dépendent de modèles de visage 3D ou de formes mélangées, EMO transforme directement les formes d'onde audio en images vidéo. Cette capacité lui permet de capturer des mouvements subtils et des caractéristiques uniques associées à la parole naturelle.

Qualité Vidéo et Expressivité Supérieures

Selon les résultats de recherche, EMO surpasse de manière significative les méthodes de pointe existantes en termes de qualité vidéo, de préservation de l'identité et d'expressivité. Une étude utilisateur a indiqué que les vidéos générées par EMO étaient perçues comme plus naturelles et émouvantes que celles produites par des systèmes concurrents.

Animation Chantante Réaliste

En plus des vidéos conversationnelles, EMO peut animer des portraits chantants, créant des formes de bouche précises et des traits faciaux expressifs synchronisés avec des performances vocales. Le système est capable de générer des vidéos d'une longueur arbitraire en fonction de la durée de l'audio d'entrée.

« Les résultats expérimentaux montrent qu'EMO produit non seulement des vidéos de parole convaincantes, mais aussi des animations chantantes dans divers styles, dépassant largement les méthodologies existantes en expressivité et en réalisme, » déclare la recherche.

Les développements d'EMO laissent entrevoir un avenir où le contenu vidéo personnalisé peut être facilement synthétisé à partir d'une seule photo et d'un clip audio. Néanmoins, des préoccupations éthiques subsistent concernant une éventuelle utilisation abusive de cette technologie pour l'usurpation d'identité ou la désinformation. Les chercheurs s'engagent à explorer des méthodes de détection pour les vidéos synthétiques afin de traiter ces questions.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles