Stable Diffusion 3.0 lance une architecture de diffusion innovante pour la création d'IA texte-image de nouvelle génération.

Stability AI a dévoilé un aperçu précoce de son modèle d'IA générative de texte à image de prochaine génération, Stable Diffusion 3.0. Cette mise à jour intervient après une année d'améliorations continues, mettant en avant une sophistication et une qualité accrues dans la génération d'images. La version SDXL lancée en juillet dernier avait déjà considérablement amélioré le modèle de base, et l'entreprise vise désormais des avancées encore plus significatives.

Stable Diffusion 3.0 se concentre sur une qualité d'image et des performances accrues, notamment pour la génération d'images à partir de requêtes multi-sujets. Une des améliorations notables réside dans la typographie, corrigeant une faiblesse antérieure en offrant une orthographe précise et cohérente dans les images générées. Ces avancées sont essentielles, surtout face à des concurrents tels que DALL-E 3, Ideogram et Midjourney, qui ont également mis l'accent sur cette fonctionnalité dans leurs mises à jour récentes. Stability AI propose Stable Diffusion 3.0 dans plusieurs tailles de modèle, allant de 800 millions à 8 milliards de paramètres.

Cette mise à jour représente un changement significatif — il ne s'agit pas seulement d'une amélioration des modèles précédents, mais d'une refonte complète basée sur une nouvelle architecture. "Stable Diffusion 3 est un transformateur de diffusion, une nouvelle architecture semblable à celle utilisée dans le modèle Sora récent d'OpenAI," a déclaré Emad Mostaque, PDG de Stability AI. "C'est le véritable successeur de l'original Stable Diffusion."

La transition vers les transformateurs de diffusion et le flux de correspondance marque le début d'une nouvelle ère dans la génération d'images. Stability AI a expérimenté diverses techniques, présentant récemment Stable Cascade, qui utilise l'architecture Würstchen pour améliorer la performance et l'exactitude. En revanche, Stable Diffusion 3.0 adopte des transformateurs de diffusion, un changement significatif par rapport à son prédécesseur.

Mostaque a expliqué, "Stable Diffusion n'avait pas de transformateur auparavant." Cette architecture, essentielle à de nombreuses avancées en IA générative, était principalement réservée aux modèles textuels, tandis que les modèles de diffusion dominaient la génération d'images. L'introduction des Transformateurs de Diffusion (DiTs) optimise l'utilisation des ressources informatiques et améliore le rendement en remplaçant l'architecture U-Net traditionnelle par des transformateurs opérant sur des morceaux d'images latentes.

De plus, Stable Diffusion 3.0 tire parti du flux de correspondance, une méthode d'entraînement novatrice pour les Flux Normalisateurs Continus (CNFs) qui modélise efficacement des distributions de données complexes. Les chercheurs soulignent que l'utilisation de l’Appariement de Flux Conditionnel (CFM) avec des chemins de transport optimaux permet un entraînement plus rapide, un échantillonnage plus efficace et une performance accrue par rapport aux méthodes de diffusion conventionnelles.

Le modèle montre des progrès clairs en typographie, permettant des narrations plus cohérentes et des choix stylistiques dans les images générées. “Cette amélioration est due à la fois à l'architecture du transformateur et à des encodeurs de texte supplémentaires,” a noté Mostaque. “Des phrases complètes sont désormais possibles, tout comme un style cohérent.”

Bien que Stable Diffusion 3.0 soit initialement présenté comme une IA de texte vers image, il sert de base pour de futures innovations. Stability AI prévoit d'élargir ses capacités à la génération 3D et vidéo dans les mois à venir. “Nous créons des modèles ouverts pouvant être utilisés et adaptés à divers besoins,” a conclu Mostaque. “Cette série de modèles, de différentes tailles, soutiendra le développement de nos solutions visuelles de prochaine génération, y compris la vidéo, le 3D, et plus encore.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles