Google presenta Lumiere: un modelo de difusión espacio-temporal para crear videos realistas con IA.

Home Noticias de IA Google presenta Lumiere: un modelo de difusión espacio-temporal para crear videos realistas con IA.

A medida que las empresas aprovechan cada vez más el potencial de la inteligencia artificial generativa, compiten por desarrollar soluciones más avanzadas. Un ejemplo notable es Lumiere, un modelo de difusión espacio-temporal creado por investigadores de Google, el Instituto Weizmann de Ciencia y la Universidad de Tel Aviv, que tiene como objetivo mejorar la generación de videos realistas.

El reciente artículo publicado describe la innovadora tecnología de Lumiere, aunque aún no está disponible para pruebas públicas. Una vez lanzado, Google podría convertirse en un fuerte competidor en el sector de videos AI, actualmente dominado por empresas como Runway, Pika y Stability AI.

¿Qué Puede Hacer Lumiere?

Lumiere, derivado de la palabra "luz", es un modelo de difusión de video diseñado para generar videos tanto realistas como estilizados. Los usuarios pueden introducir descripciones textuales en lenguaje natural para crear videos que se alineen con sus indicaciones. Además, pueden cargar imágenes fijas y aplicar textos para transformarlas en videos dinámicos. Entre sus características clave se encuentran el inpainting, que inserta objetos específicos según comandos de texto; el cinemagraph, que agrega movimiento a ciertas partes de la escena; y la generación estilizada, que permite a los usuarios crear videos en el estilo de una imagen de referencia elegida.

Los investigadores destacaron su logro: “Demostramos resultados avanzados en la generación de video a partir de texto, facilitando una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluyendo imagen a video, inpainting de video y generación estilizada”.

Rendimiento y Metodología

Aunque existen capacidades similares en el sector, como las ofrecidas por Runway y Pika, los autores argumentan que los modelos actuales a menudo enfrentan dificultades con la consistencia temporal debido a su enfoque en cascada. Típicamente, un modelo base genera cuadros clave, seguido por modelos de super-resolución temporal (TSR) que rellenan los vacíos, lo que puede limitar la duración del video y el realismo del movimiento.

Lumiere aborda estos desafíos utilizando una arquitectura U-Net espacio-temporal que genera la duración temporal total de un video en una sola pasada, mejorando el realismo y la coherencia. "Al utilizar técnicas de sub-muestreo y sobre-muestreo espacial y temporal, y al construir sobre un modelo de difusión de texto a imagen preentrenado, nuestro enfoque aprende a producir videos de baja resolución y a velocidad de cuadro completa procesándolos en múltiples escalas espacio-temporales", declararon los investigadores.

Entrenado con un conjunto de datos de 30 millones de videos y sus correspondientes descripciones textuales, Lumiere puede generar 80 cuadros a 16 fps, aunque la fuente del conjunto de datos sigue siendo incierta.

Comparación con Otros Modelos de Video AI

En pruebas contra modelos de Pika, Runway y Stability AI, los investigadores notaron que, aunque estos competidores lograron alta calidad visual por cuadro, sus salidas cortas de cuatro segundos a menudo carecían de movimiento dinámico, resultando en clips casi estáticos. ImagenVideo también mostró una calidad de movimiento limitada.

"En contraste, nuestro método genera videos de 5 segundos con mayor magnitud de movimiento, manteniendo tanto la consistencia temporal como una calidad general superior", informaron los investigadores. Encuestas realizadas a usuarios indicaron una preferencia por Lumiere sobre otros modelos para la generación de texto e imagen a video.

Aunque Lumiere representa un avance prometedor en el panorama de videos AI, es crucial señalar que aún no está disponible para pruebas. Los investigadores también reconocieron limitaciones, como la incapacidad para generar videos con múltiples tomas o transiciones de escena sin interrupciones, un área identificada para exploraciones futuras.

De 'Vultures' de Ye a 'True Detective': Cómo la IA está Transformando las Tendencias de la Cultura Pop

Innovación en Generación de Imágenes por IA: Prepárate para un Aumento de Deepfakes (¿Está LoRA Desactualizada?)

Most people like

Circleback

72.6K

Circleback es un asistente de reuniones IA avanzado, diseñado para ofrecer notas de reunión seguras y eficientes, asegurando que captures cada detalle vital sin esfuerzo.

IA AI Notes Assistant

CraveU AI

97.3K

Presentamos la Plataforma de Chatbot NSFW Definitiva: ¡Experimenta un Compromiso Interactivo Sin Restricciones como Nunca Antes!

NSFW NSFW

PseudoEditor

38.9K

Presentamos PseudoEditor, un editor en línea gratuito diseñado para simplificar el proceso de escritura y edición de pseudocódigo. Con su interfaz intuitiva y potentes características, PseudoEditor facilita a usuarios de todos los niveles crear pseudocódigo claro y organizado de manera eficiente.

editor de pseudocódigo AI Developer Tools

FlowTunes

46.1K

¡Descubre la mejor aplicación de música gratuita para mejorar tu enfoque y productividad! Con la música adecuada, puedes crear un ambiente ideal para concentrarte, ya sea que estés estudiando, trabajando o simplemente buscando relajarte. Explora nuestras mejores selecciones de aplicaciones de música diseñadas específicamente para ayudarte a mantenerte enfocado y maximizar tu eficiencia. ¡Sumérgete en el mundo de la música que te mantiene comprometido y concentrado!

Aplicación de música para concentración AI Music Generator

Find AI tools in YBX