Après seulement deux mois en aperçu, Stability AI est ravi de lancer son modèle d'intelligence artificielle générative de nouvelle génération, Stable Diffusion 3, accompagnée d'un aperçu précoce de sa technologie innovante de chatbot, baptisée « Stable Assistant ».
Annoncé pour la première fois en février, Stable Diffusion 3 est désormais accessible via une API sur la plateforme de développement de Stability AI. Cette API permet une intégration facile des puissantes capacités de génération d'images à partir de textes dans divers services et applications. De plus, une variante turbo, Stable Diffusion 3 Turbo, a été introduite pour des performances améliorées.
Avec Stable Diffusion 3, Stability AI utilise des techniques avancées d'apprentissage automatique pour améliorer significativement la qualité des images et de la typographie. Un accent particulier a été mis sur la préparation du modèle pour une utilisation en production lors du lancement de l’API.
« Nous avons mis en place de nombreuses mesures de sécurité pour prévenir les abus de SD3, que nous affinons continuellement en fonction des retours des utilisateurs », a déclaré Christian Laforte, CTO et co-CEO par intérim de Stability AI.
Modèle ouvert à venir
Bien que Stable Diffusion 3 soit désormais disponible via une API, un modèle ouvert n'est pas encore lancé, mais il est en préparation. « Nous continuerons à améliorer le modèle avant sa sortie publique », a affirmé Laforte. « En accord avec notre engagement pour une IA générative ouverte, nous mettrons bientôt à disposition les poids du modèle pour l'auto-hébergement à travers un abonnement à Stability AI. »
Cette stratégie d’abonnement, annoncée en décembre, vise à établir un nouveau modèle de revenus pour l’entreprise.
Partenariat avec Fireworks pour améliorer la performance de l'API
Le partenariat entre Stability AI et Fireworks AI renforcera la performance de l'API de Stable Diffusion 3. L'optimisation de l'inférence API pour les applications d'IA générative, particulièrement à grande échelle, peut être complexe, mais l'expertise de Fireworks AI en compilateurs de machine learning aidera à surmonter ces défis.
« Fireworks AI est un leader de l'industrie en matière de compilateurs ML, un élément essentiel pour optimiser la vitesse d'inférence de nos modèles », a souligné Laforte. « Ce partenariat nous permet de fournir la plateforme API la plus rapide et la plus fiable du marché. »
Innovations dans Stable Diffusion 3
Au cœur de Stable Diffusion se trouve le modèle de diffusion, avec plusieurs innovations qui améliorent ses capacités. Notamment, l'introduction de l'architecture Multimodal Diffusion Transformer (MMDiT) améliore la compréhension du texte et la précision typographique.
Pour le modèle SD3-Turbo, qui offre des performances ultrarapides, une méthode novatrice appelée Latent Adversarial Diffusion Distillation (LADD) est utilisée. « Essentiellement, SD3-Turbo est jusqu'à 10 fois plus rapide que SD3 tout en produisant des images de qualité presque équivalente », a expliqué Laforte.
Présentation de Stable Assistant
En plus du nouveau modèle Stable Diffusion, Stability AI a lancé une version bêta précoce de Stable Assistant, un chatbot alimenté par la technologie de génération de texte et d'images de l’entreprise. Semblable à l’intégration de ChatGPT Plus d’OpenAI avec DALL-E 3, Stable Assistant permet la génération d'images au cours de conversations.
Laforte décrit Stable Assistant comme un chatbot convivial qui combine les capacités de Stable Diffusion 3 et de Stable LM 2 12B, récemment lancé. Cet outil génère non seulement des images à partir de discussions, mais fournit également des réponses informatives, aide dans des projets rédactionnels et enrichit le contenu avec des images pertinentes.
« Stable Assistant vise à devenir notre chatbot multimodal, offrant un accès à tous nos modèles et services API sans nécessiter d'expertise technique », a déclaré Laforte. « Nous prévoyons d'améliorer continuellement ses capacités en ajoutant des fonctionnalités d'édition d'images et en incorporant des modèles d'autres modalités, y compris la vidéo, le 3D, l'audio et le code. »