Maior nem sempre é melhor, especialmente ao executar modelos de IA generativa em hardware comum. Este princípio é a base do mais recente lançamento da Stability AI: o Stable Diffusion 3 Medium. Como o modelo principal da Stability AI, o Stable Diffusion se destaca na geração de imagens a partir de texto. Uma prévia do Stable Diffusion 3 foi compartilhada em 22 de fevereiro, com o acesso público à API disponível a partir de 17 de abril.
O novo Stable Diffusion Medium foi projetado para ser um modelo menor, mas altamente eficiente, que opera de forma eficaz em GPUs de nível consumidor. Isso torna o Stable Diffusion 3 uma opção atraente para usuários e organizações com recursos limitados que buscam tecnologia eficaz de geração de imagens.
O Stable Diffusion Medium está disponível para teste via API e no serviço Stable Artisan através do Discord. Além disso, os pesos do modelo podem ser acessados para uso não comercial no Hugging Face.
Com a introdução do Stable Diffusion Medium, a versão inicial agora é conhecida como Stable Diffusion 3 (SD3) Large, que possui 8 bilhões de parâmetros. Em contrapartida, o SD3 Medium conta com 2 bilhões de parâmetros. Segundo Christian Laforte, co-CEO da Stability AI, "diferente do SD3 Large, o SD3 Medium é menor e funcionará de forma eficiente em hardware comum."
Para rodar o Stable Diffusion Medium, os usuários precisam apenas de 5GB de VRAM na GPU, permitindo sua operação em diversos PCs e laptops de alta performance. Embora essa seja a exigência mínima, a Stability AI recomenda 16GB de VRAM para desempenho otimizado, o que pode ser um desafio para alguns laptops.
Apesar de seu tamanho reduzido, o SD3 Medium apresenta recursos impressionantes comparáveis ao SD3 Large. Laforte destaca que o SD3 Medium brilha no fotorealismo, na aderência a prompts, na tipografia, na eficiência de recursos e no ajuste fino. "O SD3 Medium iguala as capacidades da API do SD3 Large que os usuários apreciam hoje," afirmou.
Os usuários podem esperar saídas de imagens altamente realistas do SD3, graças ao VAE (Variational Autoencoder) de 16 canais, que oferece maior detalhamento por megapixel em comparação aos modelos anteriores. O SD3 também demonstra uma notável aderência a prompts em linguagem natural, incluindo consciência espacial na composição de imagens.
As capacidades de ajuste fino do modelo o tornam altamente adaptável e eficiente na captura de detalhes a partir de conjuntos de dados de ajuste fino. Uma melhoria significativa presente no SD3 que é mantida no SD3 Medium é a tipografia aprimorada.
O recurso mais notável do SD3 Medium é sua eficiência em recursos. "O tamanho menor e a modularidade do modelo de 2 bilhões de parâmetros reduzem os requisitos computacionais sem sacrificar o desempenho," observou Laforte. "Isso torna o SD3 Medium uma escolha ideal em ambientes onde a gestão de recursos é crítica."