Stable Diffusion 3.0 lance une architecture de diffusion innovante pour la création d'IA texte-image de nouvelle génération.

Home Actualités IA Stable Diffusion 3.0 lance une architecture de diffusion innovante pour la création d'IA texte-image de nouvelle génération.

Updated on février 21 2024

Stability AI a dévoilé un aperçu précoce de son modèle d'IA générative de texte à image de prochaine génération, Stable Diffusion 3.0. Cette mise à jour intervient après une année d'améliorations continues, mettant en avant une sophistication et une qualité accrues dans la génération d'images. La version SDXL lancée en juillet dernier avait déjà considérablement amélioré le modèle de base, et l'entreprise vise désormais des avancées encore plus significatives.

Stable Diffusion 3.0 se concentre sur une qualité d'image et des performances accrues, notamment pour la génération d'images à partir de requêtes multi-sujets. Une des améliorations notables réside dans la typographie, corrigeant une faiblesse antérieure en offrant une orthographe précise et cohérente dans les images générées. Ces avancées sont essentielles, surtout face à des concurrents tels que DALL-E 3, Ideogram et Midjourney, qui ont également mis l'accent sur cette fonctionnalité dans leurs mises à jour récentes. Stability AI propose Stable Diffusion 3.0 dans plusieurs tailles de modèle, allant de 800 millions à 8 milliards de paramètres.

Cette mise à jour représente un changement significatif — il ne s'agit pas seulement d'une amélioration des modèles précédents, mais d'une refonte complète basée sur une nouvelle architecture. "Stable Diffusion 3 est un transformateur de diffusion, une nouvelle architecture semblable à celle utilisée dans le modèle Sora récent d'OpenAI," a déclaré Emad Mostaque, PDG de Stability AI. "C'est le véritable successeur de l'original Stable Diffusion."

La transition vers les transformateurs de diffusion et le flux de correspondance marque le début d'une nouvelle ère dans la génération d'images. Stability AI a expérimenté diverses techniques, présentant récemment Stable Cascade, qui utilise l'architecture Würstchen pour améliorer la performance et l'exactitude. En revanche, Stable Diffusion 3.0 adopte des transformateurs de diffusion, un changement significatif par rapport à son prédécesseur.

Mostaque a expliqué, "Stable Diffusion n'avait pas de transformateur auparavant." Cette architecture, essentielle à de nombreuses avancées en IA générative, était principalement réservée aux modèles textuels, tandis que les modèles de diffusion dominaient la génération d'images. L'introduction des Transformateurs de Diffusion (DiTs) optimise l'utilisation des ressources informatiques et améliore le rendement en remplaçant l'architecture U-Net traditionnelle par des transformateurs opérant sur des morceaux d'images latentes.

De plus, Stable Diffusion 3.0 tire parti du flux de correspondance, une méthode d'entraînement novatrice pour les Flux Normalisateurs Continus (CNFs) qui modélise efficacement des distributions de données complexes. Les chercheurs soulignent que l'utilisation de l’Appariement de Flux Conditionnel (CFM) avec des chemins de transport optimaux permet un entraînement plus rapide, un échantillonnage plus efficace et une performance accrue par rapport aux méthodes de diffusion conventionnelles.

Le modèle montre des progrès clairs en typographie, permettant des narrations plus cohérentes et des choix stylistiques dans les images générées. “Cette amélioration est due à la fois à l'architecture du transformateur et à des encodeurs de texte supplémentaires,” a noté Mostaque. “Des phrases complètes sont désormais possibles, tout comme un style cohérent.”

Bien que Stable Diffusion 3.0 soit initialement présenté comme une IA de texte vers image, il sert de base pour de futures innovations. Stability AI prévoit d'élargir ses capacités à la génération 3D et vidéo dans les mois à venir. “Nous créons des modèles ouverts pouvant être utilisés et adaptés à divers besoins,” a conclu Mostaque. “Cette série de modèles, de différentes tailles, soutiendra le développement de nos solutions visuelles de prochaine génération, y compris la vidéo, le 3D, et plus encore.”

Google suspend la fonctionnalité de génération de profils de Gemini suite à de nombreuses inexactitudes "woke".

Vol Biométrique : Des Attaquants Délivrent des Données Personnelles pour Accéder aux Comptes Bancaires des Victimes

Most people like

Dzine

L'outil de conception et d'image d'IA le plus contrôlable

design graphique Photo & Image Editor

CodePal

139.3K

CodePal est une plateforme innovante conçue pour soutenir les développeurs grâce à des assistants de codage et des outils qui simplifient leur flux de travail. En utilisant CodePal, les développeurs peuvent améliorer leur efficacité et leur productivité, offrant ainsi une expérience de codage plus fluide.

CodePal AI Code Assistant

Ebook Maker

173.9K

Générez des ebooks sans effort grâce à la puissance de l'IA. En un seul clic, transformez vos idées en un ebook de qualité professionnelle en un rien de temps.

création d'ebook AI Book Writing

Hydra - Advanced AI Music Generation from Rightsify

19.9K

Découvrez le monde de la génération musicale par l'IA, où une technologie de pointe crée des musiques instrumentales uniques et des effets sonores captivants adaptés à vos besoins. Découvrez comment l'intelligence artificielle révolutionne la composition musicale, proposant une solution innovante pour les artistes, les réalisateurs et les créateurs de contenu en quête de sons originaux.

Génération de musique par IA AI Content Generator

Find AI tools in YBX