La generación de imágenes a partir de simples indicaciones de texto con IA nunca ha sido tan rápida, gracias a los avances de Stability AI, creador del popular modelo Stable Diffusion. Con el lanzamiento del modo SDXL Turbo esta semana, los usuarios pueden disfrutar de la generación de imágenes en tiempo real, eliminando la espera del procesamiento por parte de la IA. Lo que antes requería 50 pasos de generación ahora solo necesita uno, reduciendo drásticamente el tiempo de cálculo. SDXL Turbo puede producir una imagen de 512×512 en solo 207 ms en una GPU A100, lo que representa una mejora significativa respecto a modelos de difusión de IA anteriores.
La experiencia de SDXL Turbo se asemeja a las funciones de autocompletado en motores de búsqueda modernos, aplicando esta velocidad a la generación de imágenes en tiempo real. Esta aceleración, notablemente, no proviene de hardware avanzado, sino de una técnica novedosa llamada Destilación de Difusión Adversarial (ADD). Emad Mostaque, fundador y CEO de Stability AI, comentó en X (anteriormente Twitter): “Un paso en Stable Diffusion XL con nuestro nuevo enfoque de Difusión Destilada Adversarial (ADD) ofrece menos diversidad pero resultados mucho más rápidos, con más variantes esperadas en el futuro.”
SDXL – Ahora Más Rápido
El modelo base SDXL fue introducido en julio, y Mostaque anticipó que serviría como una sólida base para futuros modelos. Stable Diffusion compite con otros modelos de texto a imagen, como DALL-E de OpenAI y Midjourney.
Una característica clave del modelo base SDXL son los ControlNets, que mejoran el control sobre la composición de imágenes. Con 3.5 mil millones de parámetros, ofrece una mayor precisión al comprender una gama más amplia de conceptos. SDXL Turbo amplía estas innovaciones, mejorando la velocidad de generación.
Stability AI sigue una tendencia creciente en el desarrollo de IA generativa: primero, producir un modelo preciso y luego optimizarlo para rendimiento, similar al enfoque de OpenAI con GPT-3.5 Turbo y GPT-4 Turbo.
A medida que los modelos de IA generativa se aceleran, surge una preocupación común sobre la compensación entre calidad y velocidad. Sin embargo, SDXL Turbo demuestra un compromiso mínimo, ofreciendo imágenes altamente detalladas que mantienen una calidad casi idéntica a su contraparte no acelerada.
¿Qué es la Destilación de Difusión Adversarial (ADD)?
El concepto de Red Generativa Antagónica (GAN) es bien conocido en IA por construir redes neuronales profundas rápidas. En contraste, los modelos de difusión tradicionales utilizan un proceso más gradual, que tiende a ser más lento. ADD combina las ventajas de ambos enfoques.
Según el informe de investigación de ADD, “El objetivo de este trabajo es combinar la calidad de muestra superior de los modelos de difusión con la velocidad inherente de las GANs.”
El método ADD desarrollado por los investigadores de Stability AI busca superar otros métodos de IA para la generación de imágenes, marcando la primera técnica que logra la síntesis de imágenes en tiempo real mediante un solo paso usando modelos fundamentales. Al combinar el entrenamiento adversarial con la destilación de puntuaciones, ADD aprovecha el conocimiento de un modelo de difusión de imágenes preentrenado. Los principales beneficios son un muestreo rápido mientras se preserva la alta fidelidad y capacidades de refinamiento iterativo.
Los experimentos muestran que ADD supera significativamente a las GANs, Modelos de Consistencia Latente y otros métodos de destilación de difusión en la generación de imágenes en 1 a 4 pasos.
Aunque Stability AI aún no considera que el modelo SDXL Turbo esté listo para uso comercial, actualmente está disponible en vista previa en el servicio web Clipdrop de la empresa. Las pruebas iniciales indican una generación de imágenes rápida, aunque la beta de Clipdrop puede carecer de algunas opciones avanzadas para diferenciar estilos de imagen. El código y los pesos del modelo también están accesibles en Hugging Face bajo una licencia de investigación no comercial.