El último modelo de vídeo de IA de Microsoft avanza en la tecnología de generación basada en trayectorias.

Las empresas de inteligencia artificial compiten intensamente por avanzar en la tecnología de generación de videos. En los últimos meses, actores clave como Stability AI y Pika Labs han lanzado modelos que crean videos a partir de textos e imágenes. En línea con estos avances, Microsoft ha presentado un nuevo modelo llamado DragNUWA, diseñado para otorgar un mayor control en la producción de videos.

DragNUWA mejora los métodos tradicionales de entrada de texto e imágenes al incorporar la generación basada en trayectorias, permitiendo a los usuarios manipular objetos o escenas completas a lo largo de caminos específicos. Esta innovación proporciona un control preciso sobre los aspectos semánticos, espaciales y temporales de la creación de videos, garantizando resultados de alta calidad.

Microsoft ha liberado el código del modelo y su demostración, invitando a la comunidad a experimentar. Sin embargo, es crucial reconocer que esta sigue siendo una iniciativa de investigación y aún no está completamente refinada.

¿Qué Hace Único a Microsoft DragNUWA?

La generación de video impulsada por IA generalmente se basa en entradas de texto, imagen o trayectoria, pero estos métodos a menudo tienen dificultades para ofrecer un control detallado. Por ejemplo, depender únicamente de texto e imágenes puede pasar por alto los matices del movimiento esenciales para los videos, y el lenguaje solo puede generar ambigüedad en conceptos abstractos.

En agosto de 2023, el equipo de IA de Microsoft presentó DragNUWA, un modelo de generación de video basado en difusión de dominio abierto que integra imágenes, texto y entradas de trayectoria para permitir un control preciso del video. Los usuarios pueden definir textos, imágenes y trayectorias específicas para gestionar diversos elementos, como movimientos de cámara y movimientos de objetos en el video resultante.

Por ejemplo, los usuarios pueden cargar una imagen de un bote en el agua, emparejarla con la indicación “un bote navegando en el lago” y proporcionar instrucciones para el movimiento del bote. Esta entrada genera un video del bote navegando según lo especificado, con la trayectoria aclarando los detalles del movimiento, el lenguaje delineando objetos futuros y las imágenes diferenciando entre sujetos.

DragNUWA en Acción

La versión inicial 1.5 de DragNUWA se ha lanzado recientemente en Hugging Face, aprovechando el modelo de Difusión de Video Estable de Stability AI para animar imágenes en función de caminos definidos. A medida que esta tecnología evoluciona, promete simplificar la generación y edición de videos. Imagina transformar fondos, animar imágenes y dirigir movimientos con una línea simple.

Los entusiastas de la IA están emocionados con este avance, considerándolo un paso significativo en la IA creativa. Sin embargo, el rendimiento del modelo en situaciones reales aún está por verse. Las pruebas iniciales indican que DragNUWA puede ejecutar con precisión movimientos de cámara y movimientos de objetos a lo largo de diversas trayectorias de arrastre.

“DragNUWA admite trayectorias curvas complejas, permitiendo que los objetos se muevan por caminos intrincados. También permite longitudes de trayectoria variables, lo que posibilita mayores amplitudes de movimiento. Además, DragNUWA puede controlar las trayectorias de múltiples objetos simultáneamente. Hasta donde sabemos, ningún otro modelo de generación de video ha logrado tal control sobre las trayectorias, lo que subraya el potencial de DragNUWA para avanzar en la tecnología de generación de videos”, afirmaron los investigadores de Microsoft en su artículo.

Este trabajo contribuye al campo en constante expansión de la investigación en video con IA. Recientemente, Pika Labs llamó la atención por su interfaz de texto a video, similar a ChatGPT, que genera videos cortos de alta calidad con varias opciones de personalización.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles