Microsoft a réalisé une avancée majeure dans la génération de contenu pilotée par l'IA avec le lancement de VASA-1, un cadre révolutionnaire qui transforme des portraits humains statiques en vidéos dynamiques de personnes parlant et chantant. Ce projet marque une étape importante dans le domaine du contenu généré par l'IA, nécessitant un minimum d'informations : une simple image fixe et un fichier audio. VASA-1 donne vie à ces images, permettant un synchronisme réaliste des lèvres, des expressions et des mouvements de tête.
Agents de l'IA en vedette
Microsoft a présenté divers exemples des capacités de VASA-1, notamment une interprétation saisissante de la Mona Lisa en train de rapper. Cependant, l'entreprise reconnaît les risques potentiels liés à la technologie des deepfakes. Elle a précisé que VASA-1 est actuellement une démonstration de recherche, sans plans immédiats de commercialisation.
Donner vie aux images statiques
Les outils d'IA d'aujourd'hui pour le contenu vidéo peuvent avoir des usages tant bénéfiques que nuisibles. Bien qu'ils puissent créer des publicités engageantes, ils peuvent également être détournés pour produire des deepfakes nuisibles. Néanmoins, il existe des utilisations positives de la technologie des deepfakes ; par exemple, un artiste peut consentir à avoir son image numérique créée à des fins promotionnelles. VASA-1 navigue entre ces enjeux en « générant des visages parlants réalistes de personnages virtuels », enrichis de compétences affectives visuelles (VAS).
Selon Microsoft, le modèle peut prendre une image fixe d'une personne et un fichier audio de discours pour produire une vidéo synchronisant les mouvements des lèvres avec l'audio, tout en incluant une gamme d'émotions, de subtilités faciales et de mouvements de tête naturels. L'entreprise a fourni des exemples illustrant comment un seul portrait peut être transformé en vidéo de la personne parlant ou chantant.
« Les innovations essentielles incluent un modèle de génération dynamique faciale holistique et de mouvements de tête qui opère dans un espace latent facial, ainsi que la création d'un espace latent facial expressif et désentrelacé à partir de vidéos », expliquent les chercheurs sur le site de l'entreprise.
Contrôle utilisateur sur la génération IA
VASA-1 offre aux utilisateurs un contrôle précis sur le contenu généré, permettant des ajustements des séquences de mouvement, de la direction des yeux, de la position de la tête et de l'expression émotionnelle grâce à des curseurs simples. Il peut également fonctionner avec divers types de contenu, y compris des images artistiques, des fichiers audio chantés et des discours en langues étrangères.
Avenir de l'implémentation de VASA
Bien que les échantillons de Microsoft semblent réalistes, certains clips révèlent leur nature générée par l'IA, les mouvements manquant de fluidité. L'approche produit des vidéos en 512 x 512 pixels et jusqu'à 45 images par seconde en traitement par lots hors ligne, supportant 40 images par seconde en streaming en ligne. Microsoft affirme que VASA-1 surpasse les méthodes existantes, selon des tests approfondis avec de nouvelles métriques.
Cependant, il est crucial de reconnaître le potentiel d'abus en matière de représentation erronée des individus, ce qui explique pourquoi Microsoft a choisi de ne pas lancer VASA-1 comme produit commercial ou API. L'entreprise a souligné que tous les portraits utilisés dans les clips de démonstration étaient générés par IA et que la technologie vise principalement à créer des compétences visuelles affectives positives pour des avatars IA virtuels, plutôt que du contenu trompeur.
À long terme, Microsoft envisage que VASA-1 ouvre la voie à des avatars réalistes qui répliquent les mouvements et émotions humaines. Cette avancée pourrait améliorer l'équité éducative, faciliter l'accessibilité pour ceux ayant des défis de communication, et offrir une compagnie ou un soutien thérapeutique aux personnes dans le besoin.