À mesure que les entreprises exploitent de plus en plus le potentiel de l'IA générative, elles s'efforcent de développer des solutions plus avancées. Un exemple notable est Lumiere, un modèle de diffusion spatio-temporelle créé par des chercheurs de Google, de l'Institut Weizmann des sciences et de l'Université de Tel Aviv, visant à améliorer la génération de vidéos réalistes.
Le document récemment publié décrit la technologie innovante de Lumiere, bien qu'elle ne soit pas encore disponible pour des tests publics. Une fois lancée, Google pourrait devenir un concurrent redoutable dans le secteur de la vidéo IA, actuellement dominé par des entreprises telles que Runway, Pika et Stability AI.
Que peut faire Lumiere ?
Lumiere, dérivé du mot "lumière", est un modèle de diffusion vidéo conçu pour générer à la fois des vidéos réalistes et stylisées. Les utilisateurs peuvent saisir des descriptions textuelles en langage naturel pour créer des vidéos correspondant à leurs requêtes. De plus, ils peuvent télécharger des images fixes et utiliser des invites textuelles pour les transformer en vidéos dynamiques. Parmi les fonctionnalités clés figurent l'inpainting, qui insère des objets spécifiques selon des commandes textuelles ; le cinémagraphe, qui ajoute du mouvement à certaines parties de la scène ; et la génération stylisée, permettant aux utilisateurs de créer des vidéos dans le style d'une image de référence choisie.
Les chercheurs ont souligné leur réussite : « Nous démontrons des résultats de génération vidéo à partir de texte de pointe, facilitant une large gamme de tâches de création de contenu et d'applications de montage vidéo, y compris l'image en vidéo, l'inpainting vidéo et la génération stylisée. »
Performance et méthodologie
Bien que des capacités similaires existent dans l'industrie, comme celles proposées par Runway et Pika, les auteurs soutiennent que les modèles actuels ont souvent du mal avec la cohérence temporelle en raison de leur approche en cascade. Généralement, un modèle de base génère des images clés, suivi de modèles de super-résolution temporelle (TSR) comblant les lacunes, ce qui peut mener à des limitations en matière de durée vidéo et de réalisme du mouvement.
Lumiere surmonte ces défis grâce à une architecture de réseau U-Net spatio-temporelle qui génère la durée temporelle complète d'une vidéo en un seul passage, améliorant ainsi le réalisme et la cohérence. « En utilisant à la fois le sous-échantillonnage spatial et temporel et en construisant sur un modèle de diffusion texte-image pré-entraîné, notre approche apprend à produire des vidéos à plein cadre et basse résolution en les traitant à travers plusieurs échelles spatio-temporelles », ont déclaré les chercheurs.
Entraîné sur un ensemble de données de 30 millions de vidéos et leurs légendes textuelles correspondantes, Lumiere peut générer 80 images à 16 fps, bien que l'origine de l'ensemble de données reste incertaine.
Comparaison avec d'autres modèles vidéo IA
Lors de tests comparatifs avec des modèles de Pika, Runway et Stability AI, les chercheurs ont noté que bien que ces concurrents atteignent une qualité visuelle élevée par image, leurs sorties courtes de quatre secondes manquent souvent de dynamisme, produisant des clips presque statiques. ImagenVideo a également montré une qualité de mouvement limitée.
« En revanche, notre méthode génère des vidéos de 5 secondes avec une plus grande amplitude de mouvement tout en maintenant la cohérence temporelle et la qualité globale », ont rapporté les chercheurs. Les enquêtes utilisateurs ont révélé une préférence pour Lumiere par rapport à d'autres modèles pour la génération de vidéos à partir de texte et d'image.
Bien que Lumiere représente une avancée prometteuse dans le paysage audiovisuel de l'IA, il est crucial de noter qu'il n'est pas encore disponible pour des tests. Les chercheurs ont également reconnu des limitations, telles que l'incapacité à générer des vidéos avec plusieurs plans ou des transitions de scène fluides : un domaine identifié pour une exploration future.