Découvrez VideoPoet : le nouvel outil de création vidéo multimodale impressionnant de Google !

Hier, je me suis demandé si Google parviendrait à lancer avec succès un produit d'IA dès sa première tentative. Avec le dévoilement de VideoPoet, il semble que nous ayons notre réponse.

Cette semaine, Google a présenté VideoPoet, un modèle linguistique de grande taille (LLM) révolutionnaire, conçu par une équipe de 31 chercheurs de Google Research, destiné à diverses tâches de génération vidéo.

Le développement de ce LLM est particulièrement remarquable. Selon l'article de recherche préliminaire de l'équipe, « La plupart des modèles existants utilisent des méthodes basées sur la diffusion, considérées comme les meilleures pour la génération vidéo. Ces modèles commencent généralement avec un modèle d'image pré-entraîné, comme Stable Diffusion, pour créer des images de haute fidélité pour chaque cadre, puis ils sont affinés pour améliorer la cohérence temporelle entre les images. »

En revanche, l'équipe de recherche de Google a choisi un LLM basé sur l'architecture transformer, couramment utilisée pour la génération de texte et de code (par exemple, ChatGPT, Claude 2, Llama 2). Cependant, VideoPoet a été spécifiquement formé pour la création vidéo.

L'Importance du Pré-entraînement

Le succès de VideoPoet repose sur un pré-entraînement approfondi sur 270 millions de vidéos et plus de 1 milliard de paires texte-image issues d'Internet et au-delà. Ces données ont été transformées en embeddings textuels, jetons visuels et jetons audio utilisables par le modèle.

Les résultats sont impressionnants, surtout comparés à des outils de génération vidéo destinés aux consommateurs, tels que Runway et Pika, ce dernier étant un investissement de Google.

Clips plus Longs et de Haute Qualité avec un Mouvement Amélioré

Google Research affirme que leur approche basée sur un LLM permet de créer des clips plus longs et de haute qualité, répondant aux limitations actuelles des IA de génération vidéo basées sur la diffusion, qui ont souvent du mal à maintenir un mouvement cohérent sur de longues séquences.

Comme l'ont souligné les membres de l'équipe Dan Kondratyuk et David Ross dans un article de blog de Google Research, « Un des goulots d'étranglement actuels dans la génération vidéo est la capacité à produire de grands mouvements cohérents. De nombreux modèles de pointe génèrent soit des mouvements limités, soit des artefacts visibles lors de tentatives de mouvements plus larges. »

VideoPoet, en revanche, peut offrir des mouvements plus grands et plus cohérents sur des vidéos allant jusqu'à 16 images. Il propose également, dès le départ, une large gamme de fonctionnalités, comme la simulation de divers mouvements de caméra, de styles visuels et même la génération de nouveaux sons pour accompagner le contenu visuel. Il traite également plusieurs types d'entrées—texte, images, et vidéos—comme indications.

En consolidant ces fonctionnalités de génération vidéo dans un seul LLM, VideoPoet élimine le besoin de plusieurs outils spécialisés, offrant une solution cohérente et tout-en-un pour la création vidéo.

En fait, une enquête menée par l'équipe de Google Research a révélé que les spectateurs préféraient les clips générés par VideoPoet. Lorsqu'ils ont évalué des clips côte à côte avec des modèles de diffusion comme Source-1, VideoCrafter et Phenaki, les vidéos de VideoPoet ont été systématiquement favorisées.

Selon le blog de Google Research, « En moyenne, les évaluateurs ont sélectionné 24 à 35 % des exemples de VideoPoet comme étant mieux alignés avec les indications que les modèles concurrents, contre seulement 8 à 11 % pour les autres. De plus, 41 à 54 % des exemples de VideoPoet ont été jugés comme ayant un mouvement plus intéressant que 11 à 21 % des autres modèles. »

Conçu pour les Vidéos Verticales

Google Research a personnalisé VideoPoet pour générer par défaut des vidéos en orientation portrait, attirant ainsi un public mobile popularisé par des plateformes comme Snapchat et TikTok.

En regardant vers l'avenir, Google Research vise à élargir les fonctionnalités de VideoPoet pour prendre en charge des tâches de génération « any-to-any », y compris du texte à l’audio et de l’audio à la vidéo, avançant ainsi le potentiel de la génération vidéo et audio.

Actuellement, VideoPoet n'est pas encore disponible pour une utilisation publique, et nous attendons des informations de la part de Google concernant son lancement. En attendant, l'anticipation monte alors que nous sommes impatients de voir comment il se compare aux autres outils sur le marché.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles