Générer des images à partir de simples invites textuelles avec l'IA n'a jamais été aussi rapide grâce aux avancées de Stability AI, le créateur du modèle Stable Diffusion largement utilisé.
Avec l'annonce du mode SDXL Turbo cette semaine, les utilisateurs peuvent désormais profiter d'une génération d'images en temps réel, éliminant ainsi l'attente pour le traitement des invites par l'IA. Ce qui nécessitait auparavant 50 étapes de génération ne demande désormais qu'une seule étape, réduisant considérablement le temps de calcul. SDXL Turbo peut produire une image de 512×512 en seulement 207 ms sur un GPU A100, représentant une amélioration significative par rapport aux anciens modèles de diffusion.
L'expérience SDXL Turbo s'inspire des fonctionnalités de saisie prédictive des moteurs de recherche modernes, mais applique cette rapidité à la génération d'images en temps réel. Fait remarquable, cette accélération ne provient pas d'un matériel avancé, mais d'une nouvelle technique appelée Distillation de Diffusion Adversariale (ADD). Emad Mostaque, fondateur et PDG de Stability AI, a expliqué sur X (anciennement Twitter) : « Une génération d'images Stable Diffusion XL en une seule étape avec notre nouvelle approche de Diffusion Distillée Adversariale (ADD) offre moins de diversité, mais des résultats beaucoup plus rapides, avec davantage de variantes attendues à l'avenir. »
SDXL – Maintenant plus rapide
Le modèle de base SDXL a été introduit en juillet, et Mostaque anticipait qu'il servirait de base solide pour des modèles futurs. Stable Diffusion est en concurrence avec d'autres modèles de génération d'images à partir de texte, tels que DALL-E d'OpenAI et Midjourney.
Une caractéristique clé du modèle de base SDXL est ControlNets, qui améliore le contrôle sur la composition des images. Avec 3,5 milliards de paramètres, il offre une précision accrue en comprenant un éventail plus large de concepts. SDXL Turbo s'appuie sur ces innovations pour augmenter la vitesse de génération.
Stability AI suit une tendance croissante dans le développement de l'IA générative : d'abord produire un modèle précis, puis l'optimiser pour les performances—semblable à l'approche d'OpenAI avec GPT-3.5 Turbo et GPT-4 Turbo.
Alors que les modèles d'IA générative s'accélèrent, une préoccupation commune est le compromis entre qualité et rapidité. Cependant, SDXL Turbo démontre un compromis minimal, livrant des images hautement détaillées qui conservent presque la même qualité que son homologue non accéléré.
Qu'est-ce que la Distillation de Diffusion Adversariale (ADD) ?
Le concept de Réseau Antagoniste Génératif (GAN) est bien connu en IA pour construire des réseaux de neurones profonds rapides. En revanche, les modèles de diffusion traditionnels utilisent un processus plus graduel, ce qui tend à être plus lent. L'ADD fusionne les avantages des deux approches.
Selon le rapport de recherche sur l'ADD, « L'objectif de ce travail est de combiner la qualité d'échantillon supérieure des modèles de diffusion (DM) avec la rapidité inhérente des GAN. »
La méthode ADD développée par les chercheurs de Stability AI vise à dépasser d'autres méthodes d'IA pour la génération d'images, marquant la première technique à réaliser une synthèse d'images en temps réel en une seule étape à l'aide de modèles de base. En combinant l'apprentissage adversarial avec la distillation de scores, l'ADD exploite les connaissances d'un modèle de diffusion d'images préentraîné. Les principaux avantages sont un échantillonnage rapide tout en préservant une haute fidélité et des capacités de raffinement itératif.
Des expériences montrent que l'ADD surpasse significativement les GAN, les modèles de cohérence latente et d'autres méthodes de distillation de diffusion pour générer des images en 1 à 4 étapes.
Bien que Stability AI ne considère pas encore le modèle SDXL Turbo prêt pour une utilisation commerciale, il est actuellement disponible en aperçu sur le service web Clipdrop de l'entreprise. Les premiers tests indiquent une génération rapide d'images, bien que la version bêta de Clipdrop puisse manquer de certaines options avancées pour différencier les styles d'image. Le code et les poids du modèle sont également accessibles sur Hugging Face sous une licence de recherche non commerciale.