¡El impresionante nuevo creador de videos multimodal de Google: descubre VideoPoet!

Ayer me preguntaba si Google tendría éxito al lanzar un producto de inteligencia artificial en su primer intento. Con la presentación de VideoPoet, parece que tenemos la respuesta.

Esta semana, Google lanzó VideoPoet, un revolucionario modelo de lenguaje grande (LLM) creado por un equipo de 31 investigadores en Google Research, destinado a diversas tareas de generación de video. El desarrollo de este LLM es especialmente notable. Según el artículo de investigación previo del equipo, "la mayoría de los modelos existentes utilizan métodos basados en difusión, considerados los mejores en generación de video. Típicamente, estos modelos comienzan con un modelo de imagen preentrenado, como Stable Diffusion, para crear imágenes de alta fidelidad para fotogramas individuales, y luego se ajustan para mejorar la coherencia temporal entre fotogramas".

En contraste, el equipo de investigación de Google eligió un LLM basado en la arquitectura transformer, comúnmente utilizada para la generación de texto y código (por ejemplo, ChatGPT, Claude 2, Llama 2). Sin embargo, VideoPoet fue específicamente entrenado para la creación de videos.

La Importancia del Preentrenamiento

El éxito de VideoPoet se basa en un extenso preentrenamiento con 270 millones de videos y más de 1,000 millones de pares de texto-imagen extraídos de internet y otras fuentes. Estos datos fueron convertidos en incrustaciones de texto, tokens visuales y tokens de audio que el modelo puede utilizar.

Los resultados son impresionantes, especialmente al compararlos con herramientas avanzadas de generación de video orientadas al consumidor, como Runway y Pika, esta última siendo una inversión de Google.

Clips Más Largos y de Mayor Calidad con Movimiento Mejorado

Google Research afirma que su enfoque basado en LLM permite la creación de clips más largos y de alta calidad, superando las limitaciones actuales de las AIs de generación de video basadas en difusión, que a menudo tienen problemas para mantener un movimiento coherente a lo largo de secuencias extensas. Como señalaron los miembros del equipo, Dan Kondratyuk y David Ross, en una publicación del blog de Google Research, "uno de los cuellos de botella actuales en la generación de video es la capacidad de producir grandes movimientos coherentes. Muchos modelos líderes generan movimientos pequeños o producen artefactos notables al intentar movimientos más grandes".

Sin embargo, VideoPoet puede ofrecer movimientos más grandes y consistentes en videos de hasta 16 fotogramas. También ofrece una amplia gama de funcionalidades desde el inicio, como simular diversos movimientos de cámara, estilos visuales e incluso generar nuevo audio para complementar el contenido visual. Lo más importante es que procesa múltiples tipos de entrada—texto, imágenes y videos—como prompts.

Al consolidar estas características de generación de video en un solo LLM, VideoPoet elimina la necesidad de múltiples herramientas especializadas, brindando una solución integral y coherente para la creación de videos.

De hecho, una encuesta realizada por el equipo de Google Research encontró que los espectadores preferían los clips generados por VideoPoet. Cuando los humanos clasificaron clips comparándolos con modelos de difusión como Source-1, VideoCrafter y Phenaki, los videos de VideoPoet fueron consistentemente preferidos.

Según el blog de Google Research, "en promedio, los evaluadores seleccionaron del 24 al 35% de los ejemplos de VideoPoet como mejores alineados con los prompts que los modelos competidores, en comparación con solo el 8 al 11% para otros. Además, entre el 41 y el 54% de los ejemplos de VideoPoet fueron calificados como tener un movimiento más interesante que el 11 al 21% de otros modelos".

Diseñado para Video Vertical

Google Research ha personalizado VideoPoet para generar videos en orientación vertical por defecto, apelando a la audiencia de video móvil popularizada por plataformas como Snapchat y TikTok.

Mirando hacia el futuro, Google Research tiene como objetivo ampliar las funcionalidades de VideoPoet para soportar tareas de generación "de cualquier tipo a cualquier tipo", incluyendo texto a audio y audio a video, avanzando así el potencial de la generación de video y audio.

Actualmente, VideoPoet no está disponible para uso público y estamos a la espera de información de Google sobre su lanzamiento. Hasta entonces, la anticipación crece mientras esperamos ver cómo se compara con otras herramientas en el mercado.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles