Depuis qu'OpenAI a lancé son modèle de création vidéo par IA générative Sora plus tôt cette année, peu de concurrents ont atteint son niveau de réalisme et de qualité—jusqu'à présent.
Lors de sa conférence annuelle des développeurs I/O, Google a présenté Veo, un nouveau modèle de vidéo générative développé par sa célèbre division DeepMind. Google décrit Veo comme capable de générer des clips "de haute qualité, en 1080p dépassant 60 secondes". D'après un post sur le compte X de DeepMind, le modèle prend en charge une variété de styles cinématographiques, allant du photoréalisme et du surréalisme à l'animation.
Sur sa page produit, Google affirme que Veo vise à "rendre la production vidéo accessible à tous", que les utilisateurs soient des cinéastes expérimentés, des créateurs en herbe ou des éducateurs. Veo prend en charge les transformations texte-en-vidéo, vidéo-en-vidéo et image-en-vidéo.
En partenariat avec l'artiste polyvalent Donald Glover, également connu sous le nom de Childish Gambino, Google a testé les nouvelles fonctionnalités de Veo via son studio créatif, Gilga.
Pour démontrer les capacités impressionnantes de Veo, DeepMind a présenté plusieurs vidéos générées sur ses comptes YouTube et X, comportant des scènes telles qu'une ville néon, des méduses réalistes, des cowboys à cheval, des vaisseaux spatiaux explorant le cosmos et des interactions humaines. Les résultats imitent de près les prises de vue en direct et les animations habilement conçues, le tout créé à partir de simples invites textuelles.
Dans un article de blog, le vice-président de Google Eli Collins et le directeur de recherche senior Douglas Eck mettent en avant Veo pour son "niveau de contrôle créatif sans précédent", avec une compréhension aiguë des termes cinématographiques tels que "time-lapse" et "plans aériens".
De plus, Veo facilite des montages rapides et de haute qualité tant pour les vidéos générées par l'IA que pour celles téléchargées par l'utilisateur, y compris des séquences préenregistrées. Par exemple, les utilisateurs peuvent entrer une commande d'édition, comme ajouter des kayaks à une prise de vue aérienne de la côte, et Veo peut l'intégrer sans effort dans la vidéo originale.
Veo excelle également dans le maintien de la cohérence entre les images, en résolvant certaines incohérences typiquement constatées dans d'autres modèles, y compris Sora. Cela est possible grâce à des transformateurs de diffusion latente avancés, garantissant que les personnages et les objets restent cohérents et réalistes.
Pour améliorer ses performances, Google a perfectionné les légendes des données d'entraînement et utilisé des représentations vidéo compressées de haute qualité. Cette optimisation améliore la qualité globale des vidéos et réduit le temps de génération.
Toutes les vidéos générées par Veo sont dotées de SynthID, le filigrane de certification de contenu d'Google, confirmant leur statut généré par l'IA.
Veo représente des années de recherche de DeepMind, s'appuyant sur des innovations précédentes comme le Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere.
Actuellement, Veo n'est pas disponible au public. À l'instar du modèle d'OpenAI avec Sora, il est accessible à certains créateurs via un aperçu privé dans VideoFX. Google prévoit d'intégrer certaines fonctionnalités de Veo dans YouTube Shorts et d'autres produits à l'avenir.