Stability AI élargit ses capacités de génération d'images avec Stable Diffusion Medium.

Plus grand n'est pas toujours meilleur, surtout lorsqu'il s'agit d'exécuter des modèles d'IA générative sur du matériel ordinaire. Ce principe souligne la dernière sortie de Stability AI : Stable Diffusion 3 Medium. En tant que modèle phare de Stability AI, Stable Diffusion excelle dans la génération d'images à partir de texte. Une présentation de Stable Diffusion 3 a été partagée le 22 février, avec un accès API public débutant le 17 avril.

Le nouveau modèle Stable Diffusion Medium est conçu pour être compact tout en étant très performant, fonctionnant efficacement sur des GPU de niveau consommateur. Cela en fait une option séduisante pour les utilisateurs et les organisations disposant de ressources limitées à la recherche d'une technologie de génération d'images efficace.

Stable Diffusion Medium est disponible pour des tests via l'API et sur le service Stable Artisan via Discord. De plus, les poids du modèle peuvent être accessibles pour un usage non commercial sur Hugging Face.

Avec l'introduction de Stable Diffusion Medium, le modèle initial est désormais appelé Stable Diffusion 3 (SD3) Large, qui comprend 8 milliards de paramètres, tandis que SD3 Medium en compte 2 milliards. Selon Christian Laforte, co-CEO de Stability AI, « Contrairement à SD3 Large, SD3 Medium est plus petit et fonctionnera efficacement sur du matériel grand public. »

Pour faire fonctionner Stable Diffusion Medium, les utilisateurs n'ont besoin que de 5 Go de VRAM GPU, ce qui lui permet de fonctionner sur divers PC de consommation et ordinateurs portables haut de gamme. Bien que cela soit la configuration minimale requise, Stability AI recommande 16 Go de VRAM GPU pour des performances optimales, ce qui, bien que raisonnable, peut poser des difficultés pour certains ordinateurs portables.

Malgré sa taille réduite, SD3 Medium offre des fonctionnalités impressionnantes comparables à celles de SD3 Large. Laforte souligne que SD3 Medium excelle en photoréalisme, en respect de l'invite, en typographie, en efficacité des ressources et en finition. « SD3 Medium égalise les capacités de l'API SD3 Large que les utilisateurs apprécient aujourd'hui, » a-t-il déclaré.

Les utilisateurs peuvent s'attendre à des rendus d'images très réalistes de la part de SD3, grâce à son VAE (Autoencodeur Variationnel) à 16 canaux, qui offre une plus grande détail par mégapixel que les modèles précédents. SD3 démontre également une remarquable adhérence aux invitations en langage naturel, incluant une conscience spatiale dans la composition d'image.

Les capacités de finition du modèle le rendent hautement adaptable et efficient pour capturer les détails des ensembles de données de finition. L'amélioration de la typographie est une autre avancée significative présente dans SD3 qui se retrouve également dans SD3 Medium.

La caractéristique la plus marquante de SD3 Medium est son efficacité des ressources. « La taille réduite et la modularité du modèle à 2 milliards de paramètres diminuent les exigences computationnelles sans sacrifier la performance, » a noté Laforte. « Cela fait de SD3 Medium un choix idéal dans des environnements où la gestion des ressources est cruciale. »

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles