Les chercheurs de Google présentent 'VLOGGER' : une technologie d'intelligence artificielle qui anime les photos fixes.

Home Actualités IA Les chercheurs de Google présentent 'VLOGGER' : une technologie d'intelligence artificielle qui anime les photos fixes.

Les chercheurs de Google ont présenté un système innovant d'intelligence artificielle nommé VLOGGER, capable de produire des vidéos réalistes d'individus qui parlent, gesticulent et se déplacent, le tout à partir d'une seule photo fixe. Cette technologie révolutionnaire utilise des modèles avancés d'apprentissage machine pour créer des séquences animées d'une étonnante fidélité, offrant de nombreuses applications potentielles tout en soulevant des inquiétudes concernant les deepfakes et la désinformation.

Dans leur article de recherche intitulé "VLOGGER : Multimodal Diffusion for Embodied Avatar Synthesis", l'équipe démontre comment ce modèle d'IA peut prendre une photo d'une personne accompagnée d'un extrait audio pour générer une vidéo où l'individu parle, affichant des expressions faciales, des mouvements de tête et des gestes correspondants. Bien que les vidéos puissent présenter certaines imperfections, elles représentent une avancée majeure dans l'animation d'images fixes.

Révolutionnant la communication synthétique

Sous la direction d'Enric Corona chez Google Research, l'équipe a utilisé des modèles de diffusion, des cadres d'apprentissage machine puissants connus pour générer des images réalistes à partir de descriptions textuelles. En adaptant ces modèles à la synthèse vidéo et en les entraînant sur un vaste nouveau jeu de données, les chercheurs ont élaboré un système qui anime de manière convaincante des photographies.

Les auteurs soulignent que "contrairement aux méthodes précédentes, notre approche ne nécessite pas d'entraînement individuel, évite la détection et le recadrage du visage, génère des images complètes et couvre une large gamme de scénarios essentiels à une communication humaine réaliste."

Un élément crucial de ce succès a été la création d'un vaste ensemble de données nommé MENTOR, qui comprend plus de 800 000 identités diverses et 2 200 heures de vidéos, surpassant de loin les ensembles de données antérieurs. Cette diversité permet à VLOGGER de générer des vidéos représentant des individus avec des ethnies, âges, vêtements, poses et arrière-plans variés, sans biais.

Des applications passionnantes et des implications éthiques

VLOGGER ouvre la voie à des applications intrigantes. La recherche met en avant la capacité du système à doubler automatiquement des vidéos dans différentes langues en remplaçant la piste audio, à éditer et compléter des images vidéo, et à créer des vidéos complètes à partir d'une seule image.

Les applications potentielles incluent la licence par des acteurs de modèles 3D détaillés d'eux-mêmes pour de nouvelles performances, la création d'avatars photoréalistes pour la réalité virtuelle (VR) et les jeux, ainsi que le développement d'assistants virtuels et de chatbots animés par l'IA, plus expressifs et engageants.

Google envisage VLOGGER comme un pas vers des "agents conversationnels incarnés" interagissant naturellement avec les humains par la parole, les gestes et le contact visuel. Les auteurs affirment que VLOGGER pourrait servir de solution autonome pour des présentations, l'éducation, la narration, la communication à faible bande passante, et même améliorer les interactions textuelles entre humains et ordinateurs.

Cependant, cette technologie présente des risques, en particulier concernant la création de deepfakes—des médias synthétiques pouvant remplacer des individus dans des vidéos par les images d'autres personnes. À mesure que les vidéos générées par IA deviennent plus réalistes et accessibles, les défis liés à la désinformation et à la manipulation numérique pourraient s'intensifier.

Un nouvel horizon dans l'innovation de l'IA

Malgré ses capacités impressionnantes, VLOGGER a ses limites. Les vidéos générées sont généralement brèves et présentent des arrière-plans statiques, sans mouvements d'individus dans un espace 3D. Bien que les manières et les styles de parole soient réalistes, ils ne sont pas encore indiscernables de ceux des humains réels.

Néanmoins, VLOGGER constitue une avancée significative. "Nous évaluons VLOGGER selon trois benchmarks différents, démontrant que notre modèle excelle en qualité d'image, préservation de l'identité et cohérence temporelle," notent les auteurs.

Alors que les médias générés par l'IA continuent d'évoluer, ils pourraient bientôt devenir courants, menant à une réalité où il devient de plus en plus difficile de distinguer les individus réels des représentations générées par IA. VLOGGER offre un aperçu de cet avenir, illustrant les progrès rapides de l'intelligence artificielle tout en mettant en lumière les difficultés croissantes à distinguer authenticité et artificialité.

Les studios de jeux s'adaptent et prospèrent dans un paysage de marché en évolution | Unity

Bases de données vectorielles : naviguer dans le syndrome de l'objet brillant et la quête de la licorne insaisissable

Most people like

Podwise

64.1K

Révolutionnez votre expérience de podcast avec notre outil de transcription et de résumé avancé, conçu pour améliorer la clarté et l'accessibilité tant pour les auditeurs que pour les créateurs.

IA AI Podcast Assistant

Cockatoo

314.3K

Cockatoo est un service de transcription alimenté par l'IA qui offre une conversion précise de texte et de sous-titres dans plusieurs langues, garantissant clarté et accessibilité pour des publics variés.

transcription AI Advertising Assistant

Nova - ChatGPT AI Chatbot

526.4K

Découvrez le pouvoir transformateur de notre chatbot révolutionnaire, propulsé par la technologie ChatGPT. Engagez-vous dans des conversations qui sont perspicaces, dynamiques et adaptées à vos besoins. Que vous cherchiez des informations, de l'aide ou de la compagnie, cette solution alimentée par l'IA ouvre de nouvelles perspectives d'interaction et de soutien.

Chatbot IA AI Chatbot

ShareID

8.2K

Présentation d'une solution numérique d'identité réutilisable à la pointe de la technologie, permettant aux utilisateurs de vérifier leur identité en temps réel et de partager facilement leurs informations personnelles. Cette technologie innovante simplifie la gestion des identités, renforce la sécurité et le contrôle des utilisateurs tout en facilitant les interactions en ligne.

identité numérique Large Language Models (LLMs)

Find AI tools in YBX