Stability AI, conocido por su generador de texto a imagen Stable Diffusion, ha lanzado su último modelo fundamental, Stable Video Diffusion (SVD). Este modelo ya está disponible a través de la plataforma de desarrollo y la API de la compañía, permitiendo a los desarrolladores de terceros integrarlo en sus aplicaciones, sitios web y soluciones de software.
"Esta nueva adición ofrece acceso programático a un modelo de video de última generación adaptado a diversos sectores. Nuestro objetivo es empoderar a los desarrolladores con un método eficiente para incorporar de forma fluida la generación avanzada de video en sus productos", declaró la empresa en una publicación de blog.
Aunque este lanzamiento presenta una herramienta poderosa para las empresas que buscan crear videos generados por IA, también suscita preocupaciones. Stability AI ha enfrentado recientemente críticas por utilizar el conjunto de datos LAION-5B, que contenía instancias de contenido inapropiado y que ha sido retirado de circulación.
A pesar de estos desafíos, la API SVD de Stability ofrece una ventaja competitiva en calidad de video. Según una publicación en LinkedIn de la compañía, el modelo SVD puede generar 2 segundos de video, incluyendo 25 cuadros generados y 24 cuadros de interpolación FILM, en tan solo 41 segundos. Aunque esto puede no ser suficiente para campañas de video extensas, es útil para crear GIFs y mensajes específicos, incluidos memes.
SVD compite con otros modelos de generación de video de Runway y Pika Labs, que recientemente aseguraron $55 millones en financiamiento y lanzaron una nueva plataforma de edición de video. Sin embargo, a diferencia de Stability AI, estas opciones no están disponibles a través de una API, lo que requiere que los usuarios accedan directamente a sus respectivos sitios web o aplicaciones.
Además, Stability AI planea lanzar una experiencia web para usuarios sobre su generador de video, animando a los interesados a inscribirse en una lista de espera para acceso anticipado.
Entendiendo Stable Video Diffusion
Presentado en una vista previa de investigación hace un mes, Stable Video Diffusion permite a los usuarios crear videos MP4 a partir de imágenes fijas como JPGs y PNGs. Las muestras iniciales muestran que, aunque el modelo puede producir clips cortos de hasta dos segundos, todavía está en etapas de desarrollo y ofrece menos duración que algunos modelos orientados a la investigación.
Sin embargo, múltiples clips cortos se pueden combinar para producir videos más largos. Stability AI afirma que el modelo puede ser beneficioso en sectores como publicidad, marketing, televisión y cine, y videojuegos.
Importante destacar que el último modelo puede generar videos en múltiples formatos y resoluciones, incluyendo 1024×576, 768×768 y 576×1024. También cuenta con control de fuerza de movimiento y generación basada en semillas, permitiendo tanto resultados repetibles como aleatorios.
Navegando la controversia
Aunque el lanzamiento de Stable Video Diffusion ofrece una forma simplificada para que las empresas integren capacidades de video, resalta el compromiso de Stability AI por asegurar una posición en el mercado en medio de controversias sobre sus fuentes de datos de entrenamiento.
Recientemente, un informe del Stanford Internet Observatory reveló que el conjunto de datos LAION-5B, utilizado para entrenar modelos de IA populares, contenía instancias de material inapropiado, lo que llevó a su eliminación. Además, la empresa enfrenta una demanda colectiva por la supuesta adquisición de imágenes protegidas por derechos de autor sin autorización para la creación de Stable Diffusion.
Actualmente, la API de la plataforma de desarrollo de Stability AI ofrece acceso a todos sus modelos, incluido el generador de texto a imagen Stable Diffusion XL y el nuevo modelo SVD. La empresa también ofrece una opción de suscripción para que los clientes puedan alojar estos modelos localmente.