Más grande no siempre es mejor, especialmente cuando se trata de ejecutar modelos de IA generativa en hardware común. Este principio destaca la última versión de Stability AI: Stable Diffusion 3 Medium. Como modelo insignia de Stability AI, Stable Diffusion se destaca en la generación de imágenes a partir de texto. Se compartió un adelanto de Stable Diffusion 3 el 22 de febrero, y el acceso público a la API comenzó el 17 de abril.
Stable Diffusion Medium está diseñado para ser un modelo más pequeño pero altamente capaz que funciona de manera eficiente en GPUs de consumo. Esto lo convierte en una opción atractiva para usuarios y organizaciones con recursos limitados que buscan tecnología efectiva de generación de imágenes.
Stable Diffusion Medium está disponible para pruebas a través de la API y en el servicio Stable Artisan en Discord. Además, se pueden acceder a los pesos del modelo para uso no comercial en Hugging Face.
Con la introducción de Stable Diffusion Medium, la versión inicial ahora se conoce como Stable Diffusion 3 (SD3) Large, que cuenta con 8 mil millones de parámetros, mientras que SD3 Medium tiene 2 mil millones. Según Christian Laforte, co-CEO de Stability AI, "A diferencia de SD3 Large, SD3 Medium es más pequeño y funcionará de manera eficiente en hardware de consumo."
Para ejecutar Stable Diffusion Medium, los usuarios solo necesitan 5GB de VRAM en la GPU, lo que le permite funcionar en diversas PCs de consumo y laptops de alta gama. Aunque este es el requisito mínimo, Stability AI recomienda 16GB de VRAM para un rendimiento óptimo, lo cual, aunque razonable, puede ser un reto para algunas laptops.
A pesar de su tamaño reducido, SD3 Medium posee características impresionantes comparables a SD3 Large. Laforte enfatiza que SD3 Medium sobresale en fotorrealismo, adherencia a los prompts, tipografía, eficiencia de recursos y ajuste fino. "SD3 Medium iguala las capacidades de la API de SD3 Large que los usuarios valoran hoy," afirmó.
Los usuarios pueden esperar salidas de imágenes altamente realistas de SD3, gracias al VAE (Autoencoder Variacional) de 16 canales, que ofrece mayor detalle por megapíxel en comparación con modelos anteriores. SD3 también muestra una notable adherencia a prompts en lenguaje natural, incluyendo conciencia espacial en la composición de imágenes.
Las capacidades de ajuste fino del modelo lo hacen altamente adaptable y eficiente en la captura de detalles de conjuntos de datos de ajuste fino. La mejora en tipografía es otro avance significativo presente en SD3 que se transfiere a SD3 Medium.
La característica más destacada de SD3 Medium es su eficiencia en recursos. "El tamaño más pequeño y la modularidad del modelo de 2 mil millones de parámetros reducen los requisitos computacionales sin sacrificar el rendimiento," señaló Laforte. "Esto hace que SD3 Medium sea una opción ideal en entornos donde la gestión de recursos es crítica."