Stability AI presenta la vista previa de investigación de modelos de difusión de video estable para aplicaciones creativas.

Home Noticias de IA Stability AI presenta la vista previa de investigación de modelos de difusión de video estable para aplicaciones creativas.

Updated on noviembre 23 2023

A medida que OpenAI da la bienvenida de nuevo a Sam Altman, sus competidores intensifican sus esfuerzos en el ámbito de la inteligencia artificial (IA). Tras el lanzamiento de Claude 2.1 de Anthropic y la adquisición de Rephrase.ai por parte de Adobe, Stability AI ha anunciado Stable Video Diffusion, marcando su entrada en el popular dominio de la generación de videos.

Introduciendo Stable Video Diffusion

Stable Video Diffusion (SVD), disponible solo para investigación, consiste en dos avanzados modelos de IA—SVD y SVD-XT—que generan clips de video cortos a partir de imágenes fijas. Stability AI afirma que estos modelos producen resultados de alta calidad que pueden competir con o incluso superar los generadores de video IA existentes. Ambos modelos son de código abierto como parte de la vista previa de investigación, con planes de incorporar comentarios de los usuarios para mejorar la funcionalidad para futuras aplicaciones comerciales.

Entendiendo Stable Video Diffusion

Según el blog de Stability AI, SVD y SVD-XT son modelos de difusión latente que aceptan una sola imagen estática para generar clips de video de 576 x 1024 píxeles. Pueden generar contenido a velocidades de entre tres y 30 cuadros por segundo, aunque los clips están limitados a cuatro segundos. El modelo SVD genera 14 cuadros a partir de una imagen estática, mientras que el modelo SVD-XT puede crear hasta 25 cuadros.

Para desarrollar Stable Video Diffusion, Stability AI entrenó su modelo base con aproximadamente 600 millones de muestras de un conjunto de datos de video curado, seguido de un ajuste fino en un conjunto de datos más pequeño y de alta calidad que contiene hasta un millón de clips. Este entrenamiento permite a los modelos realizar tareas como la generación de video a partir de texto e imagen.

Aunque los datos de entrenamiento provienen de conjuntos de datos de investigación disponibles públicamente, los orígenes exactos no se especifican. Es importante destacar que el documento técnico sobre SVD indica que este modelo puede ajustarse aún más para apoyar la síntesis de múltiples vistas, permitiendo vistas consistentes de un objeto a partir de una sola imagen.

Las aplicaciones potenciales para Stable Video Diffusion abarcan diversos sectores, incluidos la publicidad, la educación y el entretenimiento.

Calidad de Salida y Limitaciones

En evaluaciones externas, las salidas de SVD han demostrado alta calidad, superando a los principales modelos de texto a video cerrados de Runway y Pika Labs. Sin embargo, Stability AI reconoce que estos modelos aún se encuentran en sus primeras etapas; a menudo tienen dificultades con el fotorealismo, pueden producir videos sin movimiento y frecuentemente no generan rostros o personas con la precisión esperada.

De cara al futuro, la compañía busca refinar ambos modelos, abordar limitaciones actuales e introducir nuevas funcionalidades como soporte para prompts de texto y renderizado de texto para uso comercial. Enfatizan que este lanzamiento es una invitación a la investigación abierta para identificar y resolver problemas, incluidos posibles sesgos, para garantizar un despliegue seguro.

Stability AI visualiza una variedad de modelos construidos sobre esta base, similar al ecosistema que rodea la difusión estable. También invitan a los usuarios a inscribirse en una próxima experiencia web que permitirá la generación de video a partir de texto, aunque la línea de tiempo exacta para su disponibilidad aún no es clara.

Cómo Usar los Modelos

Para explorar los modelos de Stable Video Diffusion, los usuarios pueden acceder al código en el repositorio de GitHub de Stability AI y a los pesos necesarios para la ejecución local del modelo en su página de Hugging Face. El uso se permite solo bajo la aceptación de términos que describen las aplicaciones permitidas y excluidas.

Actualmente, los casos de uso permitidos incluyen la generación de obras de arte para herramientas de diseño, educación o creatividad. Sin embargo, según Stability AI, generar representaciones fácticas de personas o eventos está fuera del alcance de este proyecto.

Aplicando el Procesamiento de Lenguaje Natural en Ciberseguridad: Una Guía Paso a Paso

IA: Navegando la Zona de Batalla Ideológica

Most people like

Speak Ai

89.8K

En el panorama digital actual, el software de transcripción, investigación, análisis de datos y procesamiento de lenguaje natural (NLP) desempeña un papel crucial en la utilización efectiva de la información. Estas herramientas capacitan a empresas e investigadores para convertir audio en texto, transformar datos en bruto en ideas prácticas y analizar patrones lingüísticos. Al aprovechar estas tecnologías, las organizaciones pueden mejorar la productividad, impulsar la innovación y tomar decisiones informadas, lo que conduce, en última instancia, a un mayor éxito en sus respectivos campos.

transcripción Large Language Models (LLMs)

Aragon

292.3K

Aragon aprovecha el poder de la IA para transformar tus selfies en retratos profesionales pulidos que destacan.

Generador de retratos de IA AI Profile Picture Generator

RoomGPT

168K

Transforma tu visión en realidad mientras diseñas la habitación de tus sueños con facilidad.

Diseñador de interiores de IA AI Design Generator

Lamucal

101.2K

Descubre una innovadora herramienta de inteligencia artificial para la música, diseñada para mejorar tu experiencia musical con tablaturas, acordes y versiones vocales. Ya seas un principiante o un músico experimentado, esta herramienta simplifica el proceso de creación y dominio de tus canciones favoritas. ¡Eleva tu actuación y creatividad sin esfuerzo!

Herramientas de música con IA AI Lyrics Generator

Find AI tools in YBX