Stability AI Revela o Stable Cascade: Uma Nova Era na Geração de Imagens
A Stability AI, criadora do aclamado AI generativo Stable Diffusion, apresenta seu mais novo modelo: o Stable Cascade. Este modelo de geração de imagens busca introduzir abordagens mais flexíveis e eficientes do que seus antecessores.
Desde o lançamento inicial do Stable Diffusion em 2022, a Stability AI aprimorou continuamente esta tecnologia fundamental. A introdução do SDXL 1.0 em julho de 2023 representou um marco significativo, seguido pela atualização SDXL Turbo em novembro de 2023.
Arquitetura Inovadora do Stable Cascade
O Stable Cascade utiliza uma arquitetura distinta em comparação ao SDXL, otimizando a eficiência na geração de imagens. Este modelo é fundamentado na arquitetura Würstchen, que incorpora técnicas avançadas para melhorar o desempenho e a precisão. De acordo com o resumo da pesquisa Würstchen, "Nossa técnica de difusão latente aprende uma representação semântica compacta e detalhada que orienta o processo de difusão, oferecendo uma orientação mais rica do que as representações latentes baseadas em linguagem, tudo isso reduzindo significativamente as demandas computacionais."
Arquitetura Modular em Três Estágios
Diferentemente do modelo único do Stable Diffusion, o Stable Cascade apresenta uma arquitetura modular em três estágios: Estágios A, B e C. Esse design melhora a eficiência do treinamento e oferece maior personalização.
- Estágio C: Converte prompts de texto em latentes compactos de 24×24 pixels.
- Estágios A e B: Decodificam esses latentes em imagens de alta resolução.
Essa separação entre a geração de texto para imagem e a decodificação de imagem permite um treinamento mais eficiente, com a Stability AI relatando uma redução de custo de 16x ao ajustar o Estágio C em comparação a um único modelo do Stable Diffusion.
Otimização Direta de Preferências para Melhor Qualidade
O Stable Cascade tem potencial para a Otimização Direta de Preferências (DPO), que visa refinar modelos para se alinharem melhor às preferências humanas. Emad Mostaque, fundador e CEO da Stability AI, declarou: “A saída do Stable Cascade será ainda melhor com DPO e pode ser aprimorada com técnicas como turbofying e quantização. Este modelo de pesquisa produz imagens excepcionais e textos sólidos desde o início, com oportunidades de melhoria através dos fluxos do ComfyUI.”
Capacidades Excepcionais de Geração de Texto
Em avaliações internas, o Stable Cascade superou outros modelos de arte AI líderes, incluindo o SDXL, destacando-se na qualidade das imagens e na concordância com os prompts. Notavelmente, apesar de conter 1.4 bilhões de parâmetros a mais que o SDXL, o Stable Cascade apresenta tempos de inferência mais rápidos. O espaço latente comprimido do modelo facilita a geração eficiente de imagens complexas através de sua abordagem em múltiplos estágios.
Destaca-se que o Stable Cascade apresenta capacidades aprimoradas de tipografia na geração de texto coerente dentro de imagens, um aspecto em que o SDXL enfrenta dificuldades. Tecnologias concorrentes, como Ideogram e DALL-E 3 da OpenAI, fizeram avanços recentes na geração de texto, embora os resultados tenham variado. Testes limitados indicam que o Stable Cascade produz consistentemente textos precisos a partir de prompts, embora a perfeição ainda não tenha sido alcançada.
Explorando Mais com o Stable Cascade
O Stable Cascade não apenas oferece uma geração de texto aprimorada, mas também suporta variações de imagem, mantendo estilo e composição ao gerar novas versões de imagens. O modelo realiza traduções eficazes de imagem para imagem, aplicando ruído e produzindo novas imagens com base na entrada. Com integração ao ControlNet, oferece funcionalidades avançadas como in-painting e super-resolução.
Atualmente, o Stable Cascade está na fase de pesquisa e está disponível para uso não comercial, com acesso fornecido por meio de um código no GitHub.