Google dévoile Lumiere : un modèle de diffusion espace-temps pour créer des vidéos IA réalistes.

Home Actualités IA Google dévoile Lumiere : un modèle de diffusion espace-temps pour créer des vidéos IA réalistes.

Updated on janvier 24 2024

À mesure que les entreprises exploitent de plus en plus le potentiel de l'IA générative, elles s'efforcent de développer des solutions plus avancées. Un exemple notable est Lumiere, un modèle de diffusion spatio-temporelle créé par des chercheurs de Google, de l'Institut Weizmann des sciences et de l'Université de Tel Aviv, visant à améliorer la génération de vidéos réalistes.

Le document récemment publié décrit la technologie innovante de Lumiere, bien qu'elle ne soit pas encore disponible pour des tests publics. Une fois lancée, Google pourrait devenir un concurrent redoutable dans le secteur de la vidéo IA, actuellement dominé par des entreprises telles que Runway, Pika et Stability AI.

Que peut faire Lumiere ?

Lumiere, dérivé du mot "lumière", est un modèle de diffusion vidéo conçu pour générer à la fois des vidéos réalistes et stylisées. Les utilisateurs peuvent saisir des descriptions textuelles en langage naturel pour créer des vidéos correspondant à leurs requêtes. De plus, ils peuvent télécharger des images fixes et utiliser des invites textuelles pour les transformer en vidéos dynamiques. Parmi les fonctionnalités clés figurent l'inpainting, qui insère des objets spécifiques selon des commandes textuelles ; le cinémagraphe, qui ajoute du mouvement à certaines parties de la scène ; et la génération stylisée, permettant aux utilisateurs de créer des vidéos dans le style d'une image de référence choisie.

Les chercheurs ont souligné leur réussite : « Nous démontrons des résultats de génération vidéo à partir de texte de pointe, facilitant une large gamme de tâches de création de contenu et d'applications de montage vidéo, y compris l'image en vidéo, l'inpainting vidéo et la génération stylisée. »

Performance et méthodologie

Bien que des capacités similaires existent dans l'industrie, comme celles proposées par Runway et Pika, les auteurs soutiennent que les modèles actuels ont souvent du mal avec la cohérence temporelle en raison de leur approche en cascade. Généralement, un modèle de base génère des images clés, suivi de modèles de super-résolution temporelle (TSR) comblant les lacunes, ce qui peut mener à des limitations en matière de durée vidéo et de réalisme du mouvement.

Lumiere surmonte ces défis grâce à une architecture de réseau U-Net spatio-temporelle qui génère la durée temporelle complète d'une vidéo en un seul passage, améliorant ainsi le réalisme et la cohérence. « En utilisant à la fois le sous-échantillonnage spatial et temporel et en construisant sur un modèle de diffusion texte-image pré-entraîné, notre approche apprend à produire des vidéos à plein cadre et basse résolution en les traitant à travers plusieurs échelles spatio-temporelles », ont déclaré les chercheurs.

Entraîné sur un ensemble de données de 30 millions de vidéos et leurs légendes textuelles correspondantes, Lumiere peut générer 80 images à 16 fps, bien que l'origine de l'ensemble de données reste incertaine.

Comparaison avec d'autres modèles vidéo IA

Lors de tests comparatifs avec des modèles de Pika, Runway et Stability AI, les chercheurs ont noté que bien que ces concurrents atteignent une qualité visuelle élevée par image, leurs sorties courtes de quatre secondes manquent souvent de dynamisme, produisant des clips presque statiques. ImagenVideo a également montré une qualité de mouvement limitée.

« En revanche, notre méthode génère des vidéos de 5 secondes avec une plus grande amplitude de mouvement tout en maintenant la cohérence temporelle et la qualité globale », ont rapporté les chercheurs. Les enquêtes utilisateurs ont révélé une préférence pour Lumiere par rapport à d'autres modèles pour la génération de vidéos à partir de texte et d'image.

Bien que Lumiere représente une avancée prometteuse dans le paysage audiovisuel de l'IA, il est crucial de noter qu'il n'est pas encore disponible pour des tests. Les chercheurs ont également reconnu des limitations, telles que l'incapacité à générer des vidéos avec plusieurs plans ou des transitions de scène fluides : un domaine identifié pour une exploration future.

De 'Vultures' de Ye à 'True Detective' : Comment l'IA façonne les tendances de la pop culture

Percée dans la Génération d’Images par IA : Préparez-vous à une Vague de Deepfakes (LoRA est-elle Obsolète ?)

Most people like

Pollinations.AI

102.1K

Pollinations.AI est une plateforme en ligne innovante qui utilise des algorithmes d'IA avancés pour créer des œuvres d'art époustouflantes et uniques. Grâce à son interface conviviale, elle permet à chacun d'explorer le monde fascinant de l'art généré par l'IA.

art IA AI Art Generator

OpenCraft AI

9.4K

Débloquez la puissance d'un assistant IA conçu spécialement pour les professionnels désireux d'améliorer leur productivité et d'optimiser leurs flux de travail. Cet outil innovant simplifie les tâches, vous permettant de vous concentrer sur ce qui compte vraiment dans votre travail. Découvrez un nouveau niveau d'efficacité avec un assistant spécialisé à portée de main.

assistant IA AI Chatbot

Interviews Chat

36.9K

Débloquez votre potentiel avec une préparation et un retour d'expérience d'entretien alimentés par l'IA Êtes-vous prêt à réussir votre prochain entretien d'embauche ? Notre plateforme alimentée par l'IA propose une préparation personnalisée et des retours d'expérience perspicaces pour renforcer votre confiance et améliorer votre performance. En utilisant des technologies de pointe, nous vous aidons à peaufiner vos réponses et à développer des compétences clés pour vous démarquer sur un marché du travail compétitif. Que vous soyez un jeune diplômé ou un professionnel aguerri, nos outils vous préparent à réussir dans n'importe quelle situation d'entretien. Augmentez vos chances d'obtenir le poste de vos rêves dès aujourd'hui !

Préparation à l'entretien AI Interview Assistant

GetSearchablePDF

Transformez vos documents PDF grâce à notre solution avancée d'OCR en masse, offrant une grande précision même pour les images et le texte manuscrit. Améliorez votre flux de travail en convertissant sans effort de grands volumes de PDF tout en préservant les détails importants et la clarté.

OCR PDF AI PDF

Find AI tools in YBX