A medida que OpenAI da la bienvenida de nuevo a Sam Altman, sus competidores intensifican sus esfuerzos en el ámbito de la inteligencia artificial (IA). Tras el lanzamiento de Claude 2.1 de Anthropic y la adquisición de Rephrase.ai por parte de Adobe, Stability AI ha anunciado Stable Video Diffusion, marcando su entrada en el popular dominio de la generación de videos.
Introduciendo Stable Video Diffusion
Stable Video Diffusion (SVD), disponible solo para investigación, consiste en dos avanzados modelos de IA—SVD y SVD-XT—que generan clips de video cortos a partir de imágenes fijas. Stability AI afirma que estos modelos producen resultados de alta calidad que pueden competir con o incluso superar los generadores de video IA existentes. Ambos modelos son de código abierto como parte de la vista previa de investigación, con planes de incorporar comentarios de los usuarios para mejorar la funcionalidad para futuras aplicaciones comerciales.
Entendiendo Stable Video Diffusion
Según el blog de Stability AI, SVD y SVD-XT son modelos de difusión latente que aceptan una sola imagen estática para generar clips de video de 576 x 1024 píxeles. Pueden generar contenido a velocidades de entre tres y 30 cuadros por segundo, aunque los clips están limitados a cuatro segundos. El modelo SVD genera 14 cuadros a partir de una imagen estática, mientras que el modelo SVD-XT puede crear hasta 25 cuadros.
Para desarrollar Stable Video Diffusion, Stability AI entrenó su modelo base con aproximadamente 600 millones de muestras de un conjunto de datos de video curado, seguido de un ajuste fino en un conjunto de datos más pequeño y de alta calidad que contiene hasta un millón de clips. Este entrenamiento permite a los modelos realizar tareas como la generación de video a partir de texto e imagen.
Aunque los datos de entrenamiento provienen de conjuntos de datos de investigación disponibles públicamente, los orígenes exactos no se especifican. Es importante destacar que el documento técnico sobre SVD indica que este modelo puede ajustarse aún más para apoyar la síntesis de múltiples vistas, permitiendo vistas consistentes de un objeto a partir de una sola imagen.
Las aplicaciones potenciales para Stable Video Diffusion abarcan diversos sectores, incluidos la publicidad, la educación y el entretenimiento.
Calidad de Salida y Limitaciones
En evaluaciones externas, las salidas de SVD han demostrado alta calidad, superando a los principales modelos de texto a video cerrados de Runway y Pika Labs. Sin embargo, Stability AI reconoce que estos modelos aún se encuentran en sus primeras etapas; a menudo tienen dificultades con el fotorealismo, pueden producir videos sin movimiento y frecuentemente no generan rostros o personas con la precisión esperada.
De cara al futuro, la compañía busca refinar ambos modelos, abordar limitaciones actuales e introducir nuevas funcionalidades como soporte para prompts de texto y renderizado de texto para uso comercial. Enfatizan que este lanzamiento es una invitación a la investigación abierta para identificar y resolver problemas, incluidos posibles sesgos, para garantizar un despliegue seguro.
Stability AI visualiza una variedad de modelos construidos sobre esta base, similar al ecosistema que rodea la difusión estable. También invitan a los usuarios a inscribirse en una próxima experiencia web que permitirá la generación de video a partir de texto, aunque la línea de tiempo exacta para su disponibilidad aún no es clara.
Cómo Usar los Modelos
Para explorar los modelos de Stable Video Diffusion, los usuarios pueden acceder al código en el repositorio de GitHub de Stability AI y a los pesos necesarios para la ejecución local del modelo en su página de Hugging Face. El uso se permite solo bajo la aceptación de términos que describen las aplicaciones permitidas y excluidas.
Actualmente, los casos de uso permitidos incluyen la generación de obras de arte para herramientas de diseño, educación o creatividad. Sin embargo, según Stability AI, generar representaciones fácticas de personas o eventos está fuera del alcance de este proyecto.