Que réserve l'avenir pour Stable Diffusion ? Stable Cascade : exploration du prochain modèle génératif texte-image de Stability AI.

Stability AI Dévoile Stable Cascade : Une Nouvelle Ère dans la Génération d'Images

Stability AI, créateur de l'acclamé AI génératif Stable Diffusion, présente désormais son dernier modèle : Stable Cascade. Ce nouveau modèle de génération d'images vise à offrir des approches plus flexibles et efficaces que ses prédécesseurs.

Depuis le lancement initial de Stable Diffusion en 2022, Stability AI a continuellement amélioré cette technologie. L'introduction de SDXL 1.0 en juillet 2023 a marqué un jalon significatif, suivie de la mise à jour SDXL Turbo en novembre 2023.

Architecture Innovante de Stable Cascade

Stable Cascade utilise une architecture distincte par rapport à SDXL, optimisant l'efficacité de la génération d'images. Ce modèle repose sur l'architecture Würstchen, intégrant des techniques avancées pour améliorer la performance et la précision. Selon l'abstract de recherche sur Würstchen, "Notre technique de diffusion latente apprend une représentation sémantique compacte mais détaillée qui guide le processus de diffusion, offrant une guidance plus riche que les représentations latentes typiques basées sur le langage, tout en réduisant considérablement les demandes computationnelles."

Architecture Modulaire en Trois Étapes

Contrairement au modèle unique de Stable Diffusion, Stable Cascade se compose d'une architecture modulaire en trois étapes : A, B et C. Ce design améliore l'efficacité d'entraînement et offre une plus grande personnalisation.

- Étape C : Convertit les invites textuelles en latents compacts de 24×24 pixels.

- Étapes A et B : Déchiffrent ces latents en images haute résolution complètes.

Cette séparation entre la génération de texte en image et le décodage d'image permet un entraînement plus efficace, avec un rapport de réduction des coûts de 16x lors du réglage de l'étape C par rapport à un modèle Stable Diffusion unique.

Optimisation des Préférences Directes pour une Qualité Accrue

Stable Cascade offre un potentiel d'Optimisation des Préférences Directes (DPO), visant à affiner les modèles pour mieux correspondre aux préférences humaines. Emad Mostaque, fondateur et PDG de Stability AI, a récemment déclaré : « La sortie de Stable Cascade sera encore meilleure avec le DPO, et pourra être améliorée grâce à des techniques telles que la turbofication et la quantification. Ce modèle de recherche produit des images exceptionnelles et un texte solide dès le départ, avec des possibilités d'amélioration par le biais de flux ComfyUI. »

Capacités de Génération de Texte Remarquables

Lors d'évaluations internes, Stable Cascade a dépassé d'autres modèles d'art AI majeurs, y compris SDXL, en matière de qualité d'image et d'alignement des invites. Bien que Stable Cascade contienne 1,4 milliard de paramètres supplémentaires par rapport à SDXL, il affiche des temps d'inférence plus rapides. L'espace latent compressé du modèle facilite la génération efficace d'images complexes grâce à son approche multi-étapes.

Stable Cascade excelle également dans la génération de texte cohérent dans les images, un domaine où SDXL rencontre des difficultés. Des technologies concurrentes, telles qu'Ideogram et DALL-E 3 de OpenAI, ont réalisé des avancées récentes dans la génération de texte, bien que les résultats varient. Des tests limités indiquent que Stable Cascade produit systématiquement un texte précis à partir des invites, même si la perfection reste à atteindre.

Explorer d'Avantage avec Stable Cascade

Stable Cascade non seulement améliore la génération de texte, mais supporte également les variations d'images, préservant le style et la composition tout en créant de nouvelles versions d'images. Le modèle réalise des traductions d'image à image en appliquant du bruit et en produisant de nouvelles images à partir des entrées. Grâce à l'intégration de ControlNet, il offre des fonctionnalités avancées telles que le in-painting et la super-résolution.

Actuellement, Stable Cascade est en phase de prévisualisation de recherche et est disponible pour un usage non commercial, avec accès par un code sur GitHub.

Most people like

Find AI tools in YBX