Stability AI Melhora a Geração de Imagens a partir de Texto com a Atualização SDXL Turbo

Gerar imagens a partir de simples prompts textuais com IA nunca foi tão rápido, graças aos avanços da Stability AI, criadora do amplamente utilizado modelo Stable Diffusion. Com o anúncio do modo SDXL Turbo esta semana, os usuários agora podem desfrutar da geração de imagens em tempo real, eliminando a espera para que a IA processe os comandos. O que antes levava 50 etapas de geração agora requer apenas uma, reduzindo drasticamente o tempo de computação. O SDXL Turbo pode produzir uma imagem de 512×512 em apenas 207ms em uma GPU A100, marcando uma melhoria significativa em relação aos modelos de difusão de IA anteriores.

A experiência do SDXL Turbo reflete os recursos de digitação preditiva encontrados em motores de busca modernos, mas aplica essa velocidade à geração de imagens em tempo real. Notavelmente, essa aceleração não vem de hardware avançado; ela é impulsionada por uma nova técnica chamada Adversarial Diffusion Distillation (ADD). Emad Mostaque, fundador e CEO da Stability AI, explicou no X (antigo Twitter): “Uma etapa no Stable Diffusion XL com nosso novo método de Adversarial Distilled Diffusion (ADD) oferece menos diversidade, mas resultados muito mais rápidos, com mais variantes esperadas no futuro.”

SDXL – Agora Mais Rápido

O modelo base SDXL foi introduzido em julho, e Mostaque previu que ele serviria como uma base sólida para modelos futuros. O Stable Diffusion compete com outros modelos de texto para imagem, como DALL-E da OpenAI e Midjourney. Uma característica fundamental do modelo base SDXL são os ControlNets, que melhoram o controle sobre a composição da imagem. Com 3,5 bilhões de parâmetros, ele oferece maior precisão ao compreender uma gama mais ampla de conceitos. O SDXL Turbo baseia-se nessas inovações, aumentando a velocidade de geração.

A Stability AI está seguindo uma tendência crescente no desenvolvimento de IA generativa: primeiro produzindo um modelo preciso, depois otimizando-o para desempenho—semelhante à abordagem da OpenAI com o GPT-3.5 Turbo e GPT-4 Turbo. Com a aceleração dos modelos de IA generativa, uma preocupação comum é o equilíbrio entre qualidade e velocidade. No entanto, o SDXL Turbo demonstra um compromisso mínimo, entregando imagens altamente detalhadas que mantêm quase a mesma qualidade de sua contraparte não acelerada.

O que é Adversarial Diffusion Distillation (ADD)?

O conceito de Rede Generativa Adversarial (GAN) é bem conhecido na IA por construir redes neurais profundas rápidas. Em contraste, os modelos de difusão tradicionais utilizam um processo mais gradual, que tende a ser mais lento. O ADD combina as vantagens de ambas as abordagens. De acordo com o relatório de pesquisa do ADD, “O objetivo deste trabalho é combinar a qualidade superior das amostras dos DMs [modelos de difusão] com a velocidade inerente dos GANs.”

O método ADD, desenvolvido pelos pesquisadores da Stability AI, visa superar outros métodos de IA para geração de imagens, marcando a primeira técnica a alcançar a síntese de imagens em tempo real em uma única etapa usando modelos fundamentais. Ao combinar treinamento adversarial com destilação de scores, o ADD aproveita o conhecimento de um modelo de difusão de imagem pré-treinado. Os principais benefícios são a amostragem rápida, mantendo alta fidelidade e capacidades de refinamento iterativo. Experimentos mostram que o ADD supera significativamente os GANs, Modelos de Consistência Latente e outros métodos de destilação de difusão na geração de imagens em 1-4 etapas.

Embora a Stability AI ainda não considere o modelo SDXL Turbo pronto para uso comercial, ele está atualmente disponível em pré-visualização no serviço web Clipdrop da empresa. Testes iniciais indicam geração rápida de imagens, embora a beta do Clipdrop possa carecer de algumas opções avançadas para diferenciar estilos de imagem. O código e os pesos do modelo também estão acessíveis no Hugging Face sob uma licença de pesquisa não comercial.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles