Stable Diffusion, a alternativa de código aberto aos geradores de imagens de IA como Midjourney e DALL-E, lançou a versão 3.5. Esta atualização visa abordar as críticas feitas à anterior Stable Diffusion 3 Medium, que recebeu ampla desaprovação. A Stability AI afirma que o modelo 3.5 oferece melhor aderência aos prompts e compete com modelos maiores em qualidade de imagem. Além disso, foi projetado para produzir uma variedade diversificada de estilos, tons de pele e características sem prompts explícitos.
O novo modelo está disponível em três versões:
1. Stable Diffusion 3.5 Large: Esta é a variante mais poderosa, oferecendo a mais alta qualidade e liderando a indústria em aderência aos prompts. A Stability AI afirma que é adequada para uso profissional com resolução de 1 MP.
2. Stable Diffusion 3.5 Large Turbo: Uma versão otimizada do modelo Large, essa variante prioriza a eficiência, gerando imagens de alta qualidade com excelente aderência aos prompts em apenas quatro etapas.
3. Stable Diffusion 3.5 Medium: Projetado para hardware consumidor, este modelo equilibra qualidade e acessibilidade, permitindo a geração de imagens entre 0.25 e 2 megapixels. No entanto, esta versão não estará disponível até 29 de outubro, ao contrário dos dois primeiros modelos, que já podem ser acessados.
O lançamento da versão 3.5 segue o problemático início da Stable Diffusion 3 Medium em junho, quando o modelo gerou imagens absurdamente grotescas em resposta a prompts simples. A Stability AI reconheceu que esta versão anterior "não atendeu completamente aos nossos padrões ou às expectativas de nossas comunidades", destacando um foco intenso na aderência aos prompts nesta nova versão.
Além disso, a série 3.5 inclui novos filtros que buscam representar melhor a diversidade humana, exibindo diferentes tons de pele e características sem a necessidade de prompts extensivos. Essa melhoria surge após erros passados de representação, como a controvérsia da Google no início deste ano, quando seu modelo Gemini gerou imagens historicamente imprecisas. A reação a esse incidente levou a Google a adiar a integração de gerações humanas por seis meses.
Com essas melhorias, esperamos que o Stable Diffusion 3.5 capture efetivamente as nuances da diversidade humana e os contextos históricos em suas produções.