Stability AI amplía su oferta de modelos de IA generativa con el lanzamiento de Stable Video 3D (SV3D). Como su nombre indica, SV3D es una herramienta de video de IA generativa diseñada para renderizar videos en 3D. Basándose en la tecnología fundamental de Stable Video, que permite a los usuarios crear videos cortos a partir de imágenes o textos, SV3D mejora las capacidades de video para la síntesis de vistas novedosas y la generación en 3D, logrando mejoras significativas en comparación con el modelo anterior de Stable Video Diffusion.
Con SV3D, Stability AI añade una profundidad considerable a su tecnología de generación de videos, permitiendo la creación y transformación de mallas 3D de múltiples vistas a partir de una sola imagen. Este modelo está disponible para uso comercial a través de una membresía profesional de Stability AI, con un costo de $20 al mes para creadores y desarrolladores que obtienen menos de $1 millón anualmente. Para fines no comerciales, los usuarios pueden descargar los pesos del modelo desde Hugging Face.
A continuación, presento una breve demostración en video que generé. Aunque puede haber ligeras distorsiones, las formas de los objetos en el video se mantienen coherentes y estables mientras la cámara gira.
Casos de Uso: Creación de Juegos y Comercio Electrónico
"Al adaptar nuestro modelo de imagen a video Stable Video Diffusion con condicionamiento del camino de la cámara, Stable Video 3D genera videos de múltiples vistas de un objeto”, señala la compañía en una entrada de blog sobre el nuevo modelo.
“Stable Video 3D es especialmente valioso para generar activos 3D en el sector de los videojuegos", afirma Varun Jampani, investigador principal de Stability AI. “También produce videos orbitales de 360 grados que mejoran la experiencia de compra inmersiva en el comercio electrónico.”
De Stable Zero123 a SV3D
Stability AI es conocida por sus modelos de IA generativa de texto a imagen Stable Diffusion, incluidos SDXL y Stable Diffusion 3.0, este último actualmente en fase de vista previa de investigación. El modelo de código abierto Stable Diffusion 1.5 respalda muchas plataformas de generación de imágenes y videos de IA, como Runway y Leonardo AI.
En diciembre de 2023, Stability AI lanzó el modelo Stable Zero123, que introdujo nuevas capacidades para la creación de imágenes en 3D. Emad Mostaque, fundador y CEO de Stability AI, declaró que este modelo fue el primero en una serie centrada en tecnologías 3D. SV3D adopta un enfoque diferente para la generación en 3D en comparación con Stable Zero123.
“Stable Video 3D sirve como sucesor y mejora de nuestro modelo anterior, Stable Zero123,” explicó Jampani. “Este nuevo modelo emplea una red de síntesis de vistas novedosas que genera múltiples imágenes de nuevas vistas a partir de una sola entrada.”
A diferencia de Stable Zero123, que depende de Stable Diffusion para producir una imagen a la vez, SV3D aprovecha los modelos de Stable Video Diffusion para generar múltiples vistas novedosas simultáneamente, lo que resulta en una calidad superior y una generación de malla 3D más efectiva a partir de una sola imagen.
Vistas Consistentes desde Cualquier Ángulo
Un artículo de investigación de Stability AI discute técnicas para generar visuales en 3D a partir de una sola imagen mediante difusión de video latente. “Los avances recientes en la generación 3D adaptan modelos generativos en 2D para síntesis de vistas novedosas (NVS) y optimización en 3D,” indica el informe. Sin embargo, muchos métodos existentes enfrentan desafíos con perspectivas limitadas e inconsistencias en los resultados.
La principal fortaleza de SV3D radica en su capacidad para proporcionar imágenes de múltiples vistas consistentes de un objeto, ofreciendo perspectivas coherentes desde varios ángulos. El artículo de investigación enfatiza este avance, afirmando: “A diferencia de enfoques anteriores que luchan con vistas restringidas e inconsistencias, Stable Video 3D proporciona vistas coherentes desde cualquier ángulo con una generalización efectiva.”
Además de mejorar la síntesis de vistas, SV3D busca optimizar las mallas 3D. Su consistencia de múltiples vistas permite una generación de mallas 3D de alta calidad directamente a partir de las salidas producidas. “Stable Video 3D utiliza su consistencia de múltiples vistas para optimizar los Campos de Radiancia Neurales 3D (NeRF) y las representaciones de mallas, mejorando significativamente la calidad de las mallas 3D generadas,” afirmó Stability AI en su anuncio.
Dos Variedades: SV3Du y SV3Dp
SV3D está disponible en dos variantes, cada una enfocada en casos de uso distintos. SV3Du genera videos orbitales a partir de entradas de imágenes únicas sin requerir condicionamiento de cámara. El condicionamiento de cámara implica entradas adicionales, a menudo una imagen o parámetros relacionados con perspectivas de cámara, que guían el proceso de generación. En cambio, SV3Dp permite tanto imágenes individuales como vistas orbitales, empoderando a los usuarios para crear videos en 3D a lo largo de rutas de cámara específicas.