¡El impresionante nuevo creador de videos multimodal de Google: descubre VideoPoet!

Home Noticias de IA ¡El impresionante nuevo creador de videos multimodal de Google: descubre VideoPoet!

Updated on diciembre 20 2023

Ayer me preguntaba si Google tendría éxito al lanzar un producto de inteligencia artificial en su primer intento. Con la presentación de VideoPoet, parece que tenemos la respuesta.

Esta semana, Google lanzó VideoPoet, un revolucionario modelo de lenguaje grande (LLM) creado por un equipo de 31 investigadores en Google Research, destinado a diversas tareas de generación de video. El desarrollo de este LLM es especialmente notable. Según el artículo de investigación previo del equipo, "la mayoría de los modelos existentes utilizan métodos basados en difusión, considerados los mejores en generación de video. Típicamente, estos modelos comienzan con un modelo de imagen preentrenado, como Stable Diffusion, para crear imágenes de alta fidelidad para fotogramas individuales, y luego se ajustan para mejorar la coherencia temporal entre fotogramas".

En contraste, el equipo de investigación de Google eligió un LLM basado en la arquitectura transformer, comúnmente utilizada para la generación de texto y código (por ejemplo, ChatGPT, Claude 2, Llama 2). Sin embargo, VideoPoet fue específicamente entrenado para la creación de videos.

La Importancia del Preentrenamiento

El éxito de VideoPoet se basa en un extenso preentrenamiento con 270 millones de videos y más de 1,000 millones de pares de texto-imagen extraídos de internet y otras fuentes. Estos datos fueron convertidos en incrustaciones de texto, tokens visuales y tokens de audio que el modelo puede utilizar.

Los resultados son impresionantes, especialmente al compararlos con herramientas avanzadas de generación de video orientadas al consumidor, como Runway y Pika, esta última siendo una inversión de Google.

Clips Más Largos y de Mayor Calidad con Movimiento Mejorado

Google Research afirma que su enfoque basado en LLM permite la creación de clips más largos y de alta calidad, superando las limitaciones actuales de las AIs de generación de video basadas en difusión, que a menudo tienen problemas para mantener un movimiento coherente a lo largo de secuencias extensas. Como señalaron los miembros del equipo, Dan Kondratyuk y David Ross, en una publicación del blog de Google Research, "uno de los cuellos de botella actuales en la generación de video es la capacidad de producir grandes movimientos coherentes. Muchos modelos líderes generan movimientos pequeños o producen artefactos notables al intentar movimientos más grandes".

Sin embargo, VideoPoet puede ofrecer movimientos más grandes y consistentes en videos de hasta 16 fotogramas. También ofrece una amplia gama de funcionalidades desde el inicio, como simular diversos movimientos de cámara, estilos visuales e incluso generar nuevo audio para complementar el contenido visual. Lo más importante es que procesa múltiples tipos de entrada—texto, imágenes y videos—como prompts.

Al consolidar estas características de generación de video en un solo LLM, VideoPoet elimina la necesidad de múltiples herramientas especializadas, brindando una solución integral y coherente para la creación de videos.

De hecho, una encuesta realizada por el equipo de Google Research encontró que los espectadores preferían los clips generados por VideoPoet. Cuando los humanos clasificaron clips comparándolos con modelos de difusión como Source-1, VideoCrafter y Phenaki, los videos de VideoPoet fueron consistentemente preferidos.

Según el blog de Google Research, "en promedio, los evaluadores seleccionaron del 24 al 35% de los ejemplos de VideoPoet como mejores alineados con los prompts que los modelos competidores, en comparación con solo el 8 al 11% para otros. Además, entre el 41 y el 54% de los ejemplos de VideoPoet fueron calificados como tener un movimiento más interesante que el 11 al 21% de otros modelos".

Diseñado para Video Vertical

Google Research ha personalizado VideoPoet para generar videos en orientación vertical por defecto, apelando a la audiencia de video móvil popularizada por plataformas como Snapchat y TikTok.

Mirando hacia el futuro, Google Research tiene como objetivo ampliar las funcionalidades de VideoPoet para soportar tareas de generación "de cualquier tipo a cualquier tipo", incluyendo texto a audio y audio a video, avanzando así el potencial de la generación de video y audio.

Actualmente, VideoPoet no está disponible para uso público y estamos a la espera de información de Google sobre su lanzamiento. Hasta entonces, la anticipación crece mientras esperamos ver cómo se compara con otras herramientas en el mercado.

¡Descubre Midjourney V6: Se Revelan Nuevas Funciones de Prompteur y Texto en Imagen!

Descubre cómo la última investigación en IA de Apple podría revolucionar tu experiencia con el iPhone.

Most people like

Stealthly AI Humanizer

79.9K

En el panorama digital actual, crear contenido de alta calidad que resuene con los lectores es esencial. Un humanizador de texto por IA es una herramienta poderosa diseñada para transformar texto generado por IA en un lenguaje más natural y humano. Esta tecnología garantiza que tu contenido sea atractivo y auténtico, haciendo que sea casi indetectable como generado por máquina. Al utilizar un humanizador de texto por IA, puedes mejorar la legibilidad y el impacto emocional de tu escritura, mejorando en última instancia la experiencia del usuario y aumentando tus clasificaciones de SEO. Acepta el futuro de la creación de contenido con un humanizador de texto por IA que eleva tu trabajo a nuevas alturas.

Humanizador de texto AI AI Detector

Lamucal

101.2K

Descubre una innovadora herramienta de inteligencia artificial para la música, diseñada para mejorar tu experiencia musical con tablaturas, acordes y versiones vocales. Ya seas un principiante o un músico experimentado, esta herramienta simplifica el proceso de creación y dominio de tus canciones favoritas. ¡Eleva tu actuación y creatividad sin esfuerzo!

Herramientas de música con IA AI Lyrics Generator

WeShop

173.6K

Desbloquea el potencial de la IA con nuestra innovadora plataforma diseñada para crear imágenes impresionantes y de alta calidad. Ya seas un diseñador, un comercializador o simplemente alguien que necesita visuales cautivadores, nuestra tecnología impulsada por IA te garantiza producir imágenes de calidad profesional sin esfuerzo. ¡Descubre cómo puedes elevar tus proyectos en cuestión de momentos!

Estudio de IA AI Advertising Assistant

Sparkpages AI

1.1M

En una época donde la información es abundante pero a menudo engañosa, encontrar contenido confiable puede resultar abrumador. Nuestro motor de búsqueda impulsado por IA está diseñado para filtrar el ruido, brindándote resultados imparciales y fiables adaptados a tus necesidades. Experimenta una nueva forma de navegar por la web, asegurando que tu búsqueda sea enfocada, precisa y libre de manipulaciones. Descubre el futuro de la búsqueda con confianza y claridad.

Motor de agente de IA Other

Find AI tools in YBX