Synthesia, une startup basée à Londres spécialisée dans la création de vidéos AI pour les entreprises, a enrichi sa plateforme en introduisant des « avatars expressifs ». Dès aujourd'hui, ces avatars AI vont au-delà des avatars numériques traditionnels en ajustant leur ton, leurs expressions faciales et leur langage corporel en fonction du contexte du contenu. Ce lancement fait suite à la récente présentation par Microsoft de VASA, un cadre AI qui transforme les photos de visages humains en vidéos animées où les personnages parlent et chantent avec des expressions et des mouvements de tête. Contrairement à VASA, qui reste un projet de recherche, les avatars expressifs de Synthesia sont une technologie concrète conçue pour aider les entreprises à créer des vidéos AI plus réalistes pour leur public.
Synthesia : Une avancée innovante dans les vidéos AI
Fondée en 2017 par des chercheurs en AI et entrepreneurs de Stanford et Cambridge, Synthesia a développé une plateforme complète combinant voix et avatars AI personnalisés. Les utilisateurs peuvent créer des vidéos AI de qualité studio à partir de scénarios pré-écrits ou de contenu généré par l'AI, ce qui a conduit à une adoption significative au sein des entreprises. Plus de 200 000 utilisateurs ont déjà créé plus de 18 millions de vidéos, bien que les avatars précédents aient manqué d'une capacité efficace à transmettre des émotions — ils ne pouvaient pas modifier leur ton ou leurs expressions en temps réel selon le script.
Avec le lancement des avatars expressifs, cette limitation est désormais surmontée. Selon Synthesia, les nouveaux avatars AI peuvent comprendre le sentiment et le contexte d'un texte, ajustant leur ton et leurs expressions en conséquence. Ils sont capables de transmettre une gamme d'émotions grâce à des changements subtils dans leurs expressions, clignements et mouvements des yeux. Par exemple, un avatar peut sourire lorsqu’il aborde un sujet joyeux ou ralentir son discours avec des pauses plus longues pour un contenu grave.
« Notre objectif n'est pas simplement de créer des rendus numériques, mais d'introduire des acteurs numériques », a déclaré Jon Starck, CTO de Synthesia, dans un article de blog. « Cette technologie améliore le réalisme des avatars numériques, brouillant la frontière entre le virtuel et le réel. »
Fondements techniques des avatars expressifs
Pour parvenir à cette compréhension nuancée du sentiment, Synthesia utilise le modèle de deep learning EXPRESS-1, entraîné sur d'énormes données de texte et de vidéo reflétant la communication humaine. « EXPRESS-1 prédit les mouvements et les expressions faciales en temps réel, s'alignant parfaitement avec les nuances et les emphases de la parole, ce qui donne lieu à des performances d’une naturalité exceptionnelle », a expliqué Starck. Les nouveaux avatars bénéficient également d'une synchronisation labiale et de capacités vocales améliorées dans plusieurs langues.
Implications des avatars expressifs
Bien que les avatars AI aux émotions humaines présentent des risques potentiels de mauvaise utilisation, Synthesia est déterminée à favoriser des applications d'entreprise positives, notamment dans la communication et le partage de connaissances. Par exemple, les entreprises de santé pourraient utiliser des avatars expressifs pour produire des vidéos patients plus empathiques, tandis que les équipes marketing pourraient exprimer leur enthousiasme pour un nouveau produit.
Pour promouvoir une utilisation responsable, Synthesia a révisé ses politiques afin de restreindre certains types de contenu sur sa plateforme et investit activement dans des technologies de détection précoce de la mauvaise utilisation et de vérification des contenus comme le C2PA. Actuellement, avec un effectif de 300 personnes, Synthesia collabore avec plus de 55 000 entreprises, dont la moitié du Fortune 100. Parmi ses clients, Zoom rapporte une augmentation de 90 % de l’efficacité dans la création de vidéos de vente et de formation grâce à Synthesia.