Desde que OpenAI presentó su modelo de creación de video generativo Sora a principios de este año, pocos competidores han igualado su realismo y calidad—hasta ahora.
Durante su conferencia anual para desarrolladores I/O, Google anunció Veo, un nuevo modelo de video generativo desarrollado por su renombrada división DeepMind. Google describe a Veo como capaz de generar “clips en alta calidad, 1080p y de más de 60 segundos.” Según una publicación en la cuenta X de DeepMind, el modelo maneja una variedad de estilos cinematográficos, desde el fotorealismo y el surrealismo hasta la animación.
En su página de producto, Google afirma que Veo tiene como objetivo “hacer que la producción de video sea accesible para todos,” ya sean cineastas experimentados, creadores en busca de inspiración o educadores. Veo admite transformaciones de texto a video, de video a video y de imagen a video.
En colaboración con el polifacético artista Donald Glover, conocido como Childish Gambino, Google probó las nuevas características de Veo a través de su estudio creativo, Gilga.
Para demostrar las impresionantes capacidades de Veo, DeepMind mostró varios videos generados en sus cuentas de YouTube y X, con escenas como una ciudad de neón, medusas realistas, vaqueros montando caballos, naves espaciales explorando el cosmos y la interacción humana. Los resultados imitan de cerca las acciones en vivo y animaciones hábilmente elaboradas, todo a partir de simples indicaciones de texto.
En una publicación del blog del vicepresidente de Google, Eli Collins, y el director de investigación senior, Douglas Eck, se destaca que Veo ofrece un “nivel de control creativo sin precedentes,” con una sólida comprensión de términos cinematográficos como “time-lapse” y “tomadas aéreas.”
Además, Veo facilita ediciones rápidas y de alta calidad tanto en videos generados por IA como en aquellos subidos por los usuarios, incluyendo metraje pregrabado. Por ejemplo, los usuarios pueden ingresar un comando de edición, como añadir kayaks a una toma costera aérea, y Veo puede implementarlo sin esfuerzo en el video original.
Veo también se destaca por mantener la coherencia entre los fotogramas del video, abordando algunas inconsistencias típicamente encontradas en otros modelos, incluido Sora. Esto se logra mediante transformadores avanzados de difusión latente, asegurando que los personajes y objetos se mantengan cohesivos y realistas.
Para mejorar su rendimiento, Google perfeccionó las descripciones de los datos de entrenamiento y utilizó representaciones de video comprimidas de alta calidad. Esta optimización eleva la calidad general del video y reduce el tiempo de generación.
Todos los videos generados por Veo están etiquetados con SynthID, la marca de agua de acreditación de contenido de Google, que confirma su estado de generados por IA.
Veo representa años de investigación de DeepMind, construyendo sobre innovaciones anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere.
Actualmente, Veo no está disponible públicamente. Siguiendo el modelo de OpenAI con Sora, está accesible para creadores selectos a través de una vista previa privada en VideoFX. Google planea, eventualmente, integrar algunas de las características de Veo en YouTube Shorts y otros productos.