Les entreprises d'IA sont en pleine compétition pour faire progresser la technologie de génération vidéo. Ces derniers mois, des acteurs clés tels que Stability AI et Pika Labs ont lancé des modèles capables de créer des vidéos à partir de textes et d'images. Dans le sillage de ces avancées, Microsoft a présenté un nouveau modèle nommé DragNUWA, conçu pour offrir un contrôle accru dans la production vidéo.
DragNUWA améliore les méthodes traditionnelles d'entrée de texte et d'image en intégrant une génération basée sur la trajectoire, permettant ainsi aux utilisateurs de manipuler des objets ou des frames vidéo entières selon des chemins spécifiques. Cette innovation favorise un contrôle précis des aspects sémantiques, spatiaux et temporels de la création vidéo tout en garantissant des résultats de haute qualité.
Microsoft a mis à disposition les poids et une démonstration du modèle en open source, invitant la communauté à l'expérimenter. Cependant, il est important de reconnaître qu'il s'agit d'une initiative de recherche qui n'est pas encore totalement affiné.
Qu'est-ce qui rend Microsoft DragNUWA unique ?
La génération vidéo assistée par l'IA s'appuie généralement sur des entrées de texte, d'image ou de trajectoire, mais ces méthodes peinent souvent à fournir un contrôle détaillé. Par exemple, s'en tenir uniquement au texte et aux images peut omettre les détails de mouvement nuancés essentiels pour la vidéo, et le langage seul peut engendrer des ambiguïtés quant aux concepts abstraits.
En août 2023, l'équipe d'IA de Microsoft a présenté DragNUWA, un modèle de génération vidéo basé sur diffusion en open domain qui intègre des entrées d'images, de texte et de trajectoires pour permettre un contrôle vidéo précis. Les utilisateurs peuvent définir des textes, des images et des trajectoires spécifiques pour gérer divers éléments, tels que les mouvements de la caméra et les motions d'objets dans la vidéo générée.
Par exemple, un utilisateur peut télécharger une image d'un bateau sur l'eau, l'associer à l'invite textuelle « un bateau naviguant sur le lac », et fournir des instructions sur le mouvement du bateau. Cela génère une vidéo du bateau se déplaçant comme spécifié, la trajectoire précisant les détails du mouvement, le langage décrivant des objets futurs, et les images différenciant les sujets.
DragNUWA en action
La version préliminaire 1.5 de DragNUWA vient d’être publiée sur Hugging Face, s'appuyant sur le modèle Stable Video Diffusion de Stability AI pour animer des images selon des chemins définis. À mesure que cette technologie évolue, elle promet de simplifier la génération et le montage vidéo. Imaginez transformer des arrière-plans, animer des images et diriger le mouvement avec une simple ligne.
Les passionnés d'IA saluent ces progrès, les considérant comme une avancée majeure dans l'IA créative. Néanmoins, la performance réelle du modèle dans des situations concrètes reste à vérifier. Des tests préliminaires indiquent que DragNUWA peut exécuter avec précision des mouvements de caméra et des motions d'objets selon diverses trajectoires de drag.
« DragNUWA prend en charge des trajectoires courbes complexes, permettant aux objets de se déplacer le long de chemins élaborés. Il s'adapte également à des longueurs de trajectoire variables, offrant de plus grandes amplitudes de mouvement. De plus, DragNUWA peut contrôler les trajectoires de plusieurs objets simultanément. À notre connaissance, aucun autre modèle de génération vidéo n'a atteint un tel niveau de contrôle des trajectoires, ce qui souligne le potentiel de DragNUWA pour faire progresser la technologie de génération vidéo », ont déclaré les chercheurs de Microsoft dans leur publication.
Ce travail contribue au champ en constante expansion de la recherche vidéo en IA. Dernièrement, Pika Labs a attiré l'attention avec son interface de texte à vidéo, similaire à ChatGPT, qui génère des vidéos courtes de haute qualité avec diverses options de personnalisation.