Microsoft dévoile VASA-1 : un cadre d'IA qui donne vie aux portraits humains avec la voix et la chanson.

Home Actualités IA Microsoft dévoile VASA-1 : un cadre d'IA qui donne vie aux portraits humains avec la voix et la chanson.

Microsoft a réalisé une avancée majeure dans la génération de contenu pilotée par l'IA avec le lancement de VASA-1, un cadre révolutionnaire qui transforme des portraits humains statiques en vidéos dynamiques de personnes parlant et chantant. Ce projet marque une étape importante dans le domaine du contenu généré par l'IA, nécessitant un minimum d'informations : une simple image fixe et un fichier audio. VASA-1 donne vie à ces images, permettant un synchronisme réaliste des lèvres, des expressions et des mouvements de tête.

Agents de l'IA en vedette

Microsoft a présenté divers exemples des capacités de VASA-1, notamment une interprétation saisissante de la Mona Lisa en train de rapper. Cependant, l'entreprise reconnaît les risques potentiels liés à la technologie des deepfakes. Elle a précisé que VASA-1 est actuellement une démonstration de recherche, sans plans immédiats de commercialisation.

Donner vie aux images statiques

Les outils d'IA d'aujourd'hui pour le contenu vidéo peuvent avoir des usages tant bénéfiques que nuisibles. Bien qu'ils puissent créer des publicités engageantes, ils peuvent également être détournés pour produire des deepfakes nuisibles. Néanmoins, il existe des utilisations positives de la technologie des deepfakes ; par exemple, un artiste peut consentir à avoir son image numérique créée à des fins promotionnelles. VASA-1 navigue entre ces enjeux en « générant des visages parlants réalistes de personnages virtuels », enrichis de compétences affectives visuelles (VAS).

Selon Microsoft, le modèle peut prendre une image fixe d'une personne et un fichier audio de discours pour produire une vidéo synchronisant les mouvements des lèvres avec l'audio, tout en incluant une gamme d'émotions, de subtilités faciales et de mouvements de tête naturels. L'entreprise a fourni des exemples illustrant comment un seul portrait peut être transformé en vidéo de la personne parlant ou chantant.

« Les innovations essentielles incluent un modèle de génération dynamique faciale holistique et de mouvements de tête qui opère dans un espace latent facial, ainsi que la création d'un espace latent facial expressif et désentrelacé à partir de vidéos », expliquent les chercheurs sur le site de l'entreprise.

Contrôle utilisateur sur la génération IA

VASA-1 offre aux utilisateurs un contrôle précis sur le contenu généré, permettant des ajustements des séquences de mouvement, de la direction des yeux, de la position de la tête et de l'expression émotionnelle grâce à des curseurs simples. Il peut également fonctionner avec divers types de contenu, y compris des images artistiques, des fichiers audio chantés et des discours en langues étrangères.

Avenir de l'implémentation de VASA

Bien que les échantillons de Microsoft semblent réalistes, certains clips révèlent leur nature générée par l'IA, les mouvements manquant de fluidité. L'approche produit des vidéos en 512 x 512 pixels et jusqu'à 45 images par seconde en traitement par lots hors ligne, supportant 40 images par seconde en streaming en ligne. Microsoft affirme que VASA-1 surpasse les méthodes existantes, selon des tests approfondis avec de nouvelles métriques.

Cependant, il est crucial de reconnaître le potentiel d'abus en matière de représentation erronée des individus, ce qui explique pourquoi Microsoft a choisi de ne pas lancer VASA-1 comme produit commercial ou API. L'entreprise a souligné que tous les portraits utilisés dans les clips de démonstration étaient générés par IA et que la technologie vise principalement à créer des compétences visuelles affectives positives pour des avatars IA virtuels, plutôt que du contenu trompeur.

À long terme, Microsoft envisage que VASA-1 ouvre la voie à des avatars réalistes qui répliquent les mouvements et émotions humaines. Cette avancée pourrait améliorer l'équité éducative, faciliter l'accessibilité pour ceux ayant des défis de communication, et offrir une compagnie ou un soutien thérapeutique aux personnes dans le besoin.

Meta s'attaque à l'architecture des Transformers avec le lancement de Megalodon LLM.

Llama 3 fait ses débuts avec le lancement du nouveau chatbot IA autonome de Meta.

Most people like

BIK

507.5K

Solution d'automatisation marketing complète conçue spécifiquement pour les marques de eCommerce.

automatisation du marketing AI Social Media Assistant

Salesforge

76.1K

Découvrez la puissance de notre plateforme de prospection par email alimentée par l'IA, conçue pour créer des courriels uniques et personnalisés qui résonnent avec votre audience. Améliorez votre stratégie de communication et augmentez l'engagement grâce à des messages sur mesure qui se démarquent dans des boîtes de réception encombrées.

IA AI Email Writer

Parsers VC

34.2K

Dans le paysage financier rapide d'aujourd'hui, les technologies alimentées par l'IA révolutionnent la manière dont les investisseurs identifient les opportunités et les associent aux projets. En utilisant des algorithmes avancés et des analyses de données, ces solutions améliorent les stratégies d'investissement prédictives, permettant des décisions plus intelligentes et éclairées. Cette innovation simplifie non seulement le processus d'investissement, mais favorise également des connexions significatives entre investisseurs et startups, ouvrant la voie à la croissance et au succès sur les marchés émergents. Découvrez comment l'IA transforme le monde des investissements prédictifs et du matching de projets, créant une synergie dynamique entre capital et innovation.

Plateforme basée sur l'IA AI Tools Directory

Deep Face Swap

98.4K

Dans le paysage numérique actuel, la technologie de l'IA transforme notre façon d'interagir et de nous exprimer en ligne. Une innovation marquante est l'échange de visages et la création d'avatars alimentés par l'IA. Cette technologie permet aux utilisateurs de fusionner facilement leurs traits avec ceux d'autres personnes ou même de générer des personas numériques entièrement nouveaux. Que ce soit pour le plaisir, l'expression artistique ou une communication améliorée, ces outils révolutionnent les interactions personnelles sur les réseaux sociaux, dans les jeux et dans les environnements virtuels. Découvrez comment l'IA redéfinit la communication visuelle et permet aux utilisateurs de redéfinir leur identité dans le monde numérique.

Échange de visages par IA AI Face Swap Generator

Find AI tools in YBX