Stable Diffusion 3.5: Mejora en la Respuesta a Prompts y Mayor Diversidad en la Generación de Personajes

Stable Diffusion, la alternativa de código abierto a generadores de imágenes por IA como Midjourney y DALL-E, ha lanzado la versión 3.5. Esta actualización responde a las críticas hacia la anterior Stable Diffusion 3 Medium, que recibió un amplio rechazo. Stability AI asegura que el modelo 3.5 mejora la adherencia a las indicaciones y compite con modelos más grandes en calidad de imagen. Además, está diseñado para generar una amplia variedad de estilos, tonalidades de piel y características sin necesidad de indicaciones explícitas.

El nuevo modelo está disponible en tres versiones:

1. Stable Diffusion 3.5 Large: Esta es la variante más potente, ofreciendo la mejor calidad y liderando la industria en adherencia a las indicaciones. Stability AI afirma que es adecuada para uso profesional a resolución de 1 MP.

2. Stable Diffusion 3.5 Large Turbo: Una versión optimizada del modelo Large, que prioriza la eficiencia y aún genera imágenes de alta calidad con excelente adherencia a las indicaciones en solo cuatro pasos.

3. Stable Diffusion 3.5 Medium: Diseñada para hardware de consumo, esta versión equilibra calidad y accesibilidad, permitiendo la generación de imágenes entre 0.25 y 2 megapíxeles. Sin embargo, esta versión no estará disponible hasta el 29 de octubre, a diferencia de los dos primeros modelos, que ya están accesibles.

El lanzamiento de la versión 3.5 sigue al problemático debut de Stable Diffusion 3 Medium en junio, cuando el modelo produjo imágenes grotescas en respuesta a indicaciones sencillas. Stability AI reconoció que esta versión anterior “no cumplió totalmente con nuestros estándares ni con las expectativas de nuestra comunidad”, destacando un fuerte enfoque en la adherencia a las indicaciones en esta nueva versión.

Además, la serie 3.5 incluye nuevos filtros que buscan representar mejor la diversidad humana, exhibiendo diversas tonalidades de piel y características sin requerir extensas indicaciones. Esta mejora surge a raíz de errores pasados en representación, como la controversia de Google a principios de este año, cuando su modelo Gemini generó imágenes históricamente inexactas. La reacción negativa a ese incidente llevó a Google a retrasar la integración de generaciones humanas durante seis meses.

Con estas mejoras, esperamos que Stable Diffusion 3.5 sea capaz de capturar efectivamente las sutilezas de la diversidad humana y los contextos históricos en sus resultados.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles