Google dévoile Veo : un nouveau modèle de vidéo générative captivant pour rivaliser avec Sora d’OpenAI.

Home Actualités IA Google dévoile Veo : un nouveau modèle de vidéo générative captivant pour rivaliser avec Sora d’OpenAI.

Depuis qu'OpenAI a lancé son modèle de création vidéo par IA générative Sora plus tôt cette année, peu de concurrents ont atteint son niveau de réalisme et de qualité—jusqu'à présent.

Lors de sa conférence annuelle des développeurs I/O, Google a présenté Veo, un nouveau modèle de vidéo générative développé par sa célèbre division DeepMind. Google décrit Veo comme capable de générer des clips "de haute qualité, en 1080p dépassant 60 secondes". D'après un post sur le compte X de DeepMind, le modèle prend en charge une variété de styles cinématographiques, allant du photoréalisme et du surréalisme à l'animation.

Sur sa page produit, Google affirme que Veo vise à "rendre la production vidéo accessible à tous", que les utilisateurs soient des cinéastes expérimentés, des créateurs en herbe ou des éducateurs. Veo prend en charge les transformations texte-en-vidéo, vidéo-en-vidéo et image-en-vidéo.

En partenariat avec l'artiste polyvalent Donald Glover, également connu sous le nom de Childish Gambino, Google a testé les nouvelles fonctionnalités de Veo via son studio créatif, Gilga.

Pour démontrer les capacités impressionnantes de Veo, DeepMind a présenté plusieurs vidéos générées sur ses comptes YouTube et X, comportant des scènes telles qu'une ville néon, des méduses réalistes, des cowboys à cheval, des vaisseaux spatiaux explorant le cosmos et des interactions humaines. Les résultats imitent de près les prises de vue en direct et les animations habilement conçues, le tout créé à partir de simples invites textuelles.

Dans un article de blog, le vice-président de Google Eli Collins et le directeur de recherche senior Douglas Eck mettent en avant Veo pour son "niveau de contrôle créatif sans précédent", avec une compréhension aiguë des termes cinématographiques tels que "time-lapse" et "plans aériens".

De plus, Veo facilite des montages rapides et de haute qualité tant pour les vidéos générées par l'IA que pour celles téléchargées par l'utilisateur, y compris des séquences préenregistrées. Par exemple, les utilisateurs peuvent entrer une commande d'édition, comme ajouter des kayaks à une prise de vue aérienne de la côte, et Veo peut l'intégrer sans effort dans la vidéo originale.

Veo excelle également dans le maintien de la cohérence entre les images, en résolvant certaines incohérences typiquement constatées dans d'autres modèles, y compris Sora. Cela est possible grâce à des transformateurs de diffusion latente avancés, garantissant que les personnages et les objets restent cohérents et réalistes.

Pour améliorer ses performances, Google a perfectionné les légendes des données d'entraînement et utilisé des représentations vidéo compressées de haute qualité. Cette optimisation améliore la qualité globale des vidéos et réduit le temps de génération.

Toutes les vidéos générées par Veo sont dotées de SynthID, le filigrane de certification de contenu d'Google, confirmant leur statut généré par l'IA.

Veo représente des années de recherche de DeepMind, s'appuyant sur des innovations précédentes comme le Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere.

Actuellement, Veo n'est pas disponible au public. À l'instar du modèle d'OpenAI avec Sora, il est accessible à certains créateurs via un aperçu privé dans VideoFX. Google prévoit d'intégrer certaines fonctionnalités de Veo dans YouTube Shorts et d'autres produits à l'avenir.

Comment le déchargement d'attention réduit les coûts d'inférence des LLM à grande échelle

Google dévoile Imagen 3 : le modèle ultime de génération d'images à partir de texte, maintenant en aperçu privé.

Most people like

FunFun Art

Découvrez le monde captivant de la création d'images et de vidéos par l'IA !

DeepNude Text to Image

Voice Out

27.4K

Améliorez votre expérience de lecture avec notre extension de synthèse vocale Découvrez une nouvelle façon d'interagir avec vos supports de lecture grâce à notre extension innovante de synthèse vocale. Conçue pour améliorer la compréhension et l'accessibilité, cet outil transforme le contenu écrit en audio clair et naturel. Que vous soyez en train d'étudier, de travailler ou simplement de profiter d'un livre, notre extension rend la lecture plus facile et agréable. Libérez le pouvoir de l'apprentissage auditif et enrichissez vos expériences de lecture dès aujourd'hui !

Extension de synthèse vocale Text-to-Speech

Jasper

1.5M

Jasper est une plateforme de création de contenu IA de pointe conçue pour permettre aux équipes des entreprises de produire facilement un contenu de haute qualité et sur mesure.

rédacteur IA AI Content Generator

般若AI

49.4K

À l’ère numérique actuelle, les grands modèles génératifs d’IA transforment notre façon de créer, notamment dans le domaine artistique. La peinture assistée par IA, en tant qu'application clé de cette technologie, stimule non seulement l'innovation dans la création artistique, mais redéfinit également le rôle des artistes. Cet article explorera en profondeur comment ces modèles avancés rendent la création artistique plus diversifiée et personnalisée, tout en abordant les enjeux éthiques et sociaux qu'ils soulèvent.

IA Copywriting

Find AI tools in YBX