Le système innovant d'IA d'Alibaba, 'EMO', génère des vidéos de conversation et de chant réalistes à partir de vos photos.

Home Actualités IA Le système innovant d'IA d'Alibaba, 'EMO', génère des vidéos de conversation et de chant réalistes à partir de vos photos.

Updated on février 28 2024

Les chercheurs de l'Institut de calcul intelligent d'Alibaba ont dévoilé "EMO" (Emote Portrait Alive), un système d'IA innovant capable d'animer une seule photo de portrait pour créer des vidéos réalistes d'individus parlant ou chantant.

Comme l'expose un article de recherche sur arXiv, EMO génère des mouvements faciaux fluides et expressifs ainsi que des poses de tête alignées avec les nuances de la piste audio fournie. Cela représente une avancée significative dans la génération de vidéos de têtes parlantes synchronisées sur l'audio, un domaine qui a posé des défis aux chercheurs en IA pendant des années.

« Les techniques traditionnelles ont souvent du mal à capturer toute la gamme des expressions humaines et l'unicité des styles faciaux individuels, » explique Linrui Tian, auteur principal. « Pour surmonter ces défis, nous proposons EMO, un cadre novateur qui utilise une approche directe de synthèse audio-vidéo, supprimant le besoin de modèles 3D ou de repères faciaux. »

Conversion Directe Audio-Vidéo

Le système EMO s'appuie sur un modèle de diffusion, une technique d'IA puissante reconnue pour sa capacité à générer des images synthétiques réalistes. Les chercheurs ont entraîné EMO sur un ensemble de données de plus de 250 heures de vidéos de têtes parlantes provenant de discours, de films, d'émissions de télévision et de performances musicales.

Contrairement aux méthodes antérieures qui dépendent de modèles de visage 3D ou de formes mélangées, EMO transforme directement les formes d'onde audio en images vidéo. Cette capacité lui permet de capturer des mouvements subtils et des caractéristiques uniques associées à la parole naturelle.

Qualité Vidéo et Expressivité Supérieures

Selon les résultats de recherche, EMO surpasse de manière significative les méthodes de pointe existantes en termes de qualité vidéo, de préservation de l'identité et d'expressivité. Une étude utilisateur a indiqué que les vidéos générées par EMO étaient perçues comme plus naturelles et émouvantes que celles produites par des systèmes concurrents.

Animation Chantante Réaliste

En plus des vidéos conversationnelles, EMO peut animer des portraits chantants, créant des formes de bouche précises et des traits faciaux expressifs synchronisés avec des performances vocales. Le système est capable de générer des vidéos d'une longueur arbitraire en fonction de la durée de l'audio d'entrée.

« Les résultats expérimentaux montrent qu'EMO produit non seulement des vidéos de parole convaincantes, mais aussi des animations chantantes dans divers styles, dépassant largement les méthodologies existantes en expressivité et en réalisme, » déclare la recherche.

Les développements d'EMO laissent entrevoir un avenir où le contenu vidéo personnalisé peut être facilement synthétisé à partir d'une seule photo et d'un clip audio. Néanmoins, des préoccupations éthiques subsistent concernant une éventuelle utilisation abusive de cette technologie pour l'usurpation d'identité ou la désinformation. Les chercheurs s'engagent à explorer des méthodes de détection pour les vidéos synthétiques afin de traiter ces questions.

Comment l'Open Source transforme la sécurité des entreprises : Découvrez comment la startup Filigran innove en matière de défense collaborative contre les menaces.

Slice vise à simplifier la distribution et le suivi des actions pour les entreprises.

Most people like

Seasalt.ai

22.7K

Découvrez une plateforme de conversation IA à la pointe de la technologie qui exploite une intelligence artificielle avancée et une technologie de reconnaissance vocale de dernier cri. Engagez votre public comme jamais auparavant grâce à nos solutions innovantes conçues pour améliorer la communication et simplifier les interactions.

IA conversationnelle AI Analytics Assistant

AiVOOV

56.5K

Découvrez AiVOOV : Transformez votre texte en audio grâce à notre technologie vocale IA avancée, proposant plus de 900 voix uniques dans plus de 125 langues. Vivez l'avenir de la synthèse vocale avec AiVOOV dès aujourd'hui !

texte à parole Text-to-Speech

MyEssayWriter.ai

140.6K

Découvrez un outil révolutionnaire alimenté par l'IA, conçu pour améliorer les compétences rédactionnelles des étudiants et favoriser leur réussite académique.

Rédacteur de discours IA AI Content Generator

Marketer

22.7K

Solutions numériques complètes pour les ventes de logements neufs.

solution de vente numérique Sales Assistant

Find AI tools in YBX