Größer ist nicht immer besser, insbesondere wenn generative KI-Modelle auf handelsüblicher Hardware ausgeführt werden. Dieses Prinzip steht im Mittelpunkt von Stability AI's neuester Veröffentlichung: Stable Diffusion 3 Medium. Als Flaggschiff-Modell von Stability AI glänzt Stable Diffusion in der Text-zu-Bild-Generierung. Eine Vorschau auf Stable Diffusion 3 wurde am 22. Februar geteilt, während der öffentliche API-Zugang am 17. April begann.
Das neue Stable Diffusion Medium wurde als kleineres, aber hochleistungsfähiges Modell konzipiert, das effizient auf Consumer-GPUs läuft. Dies macht Stable Diffusion 3 zu einer attraktiven Option für Nutzer und Organisationen mit begrenzten Ressourcen, die nach effektiver Bildgenerierungstechnologie suchen. Stable Diffusion Medium kann über die API getestet werden und ist auf dem Stable Artisan-Dienst über Discord verfügbar. Außerdem sind die Modellgewichte für nicht-kommerzielle Nutzung auf Hugging Face zugänglich.
Mit der Einführung von Stable Diffusion Medium trägt die ursprüngliche Version jetzt den Namen Stable Diffusion 3 (SD3) Large, die über 8 Milliarden Parameter verfügt. Im Vergleich dazu hat SD3 Medium 2 Milliarden Parameter. Christian Laforte, Co-CEO von Stability AI, betont: „Im Gegensatz zu SD3 Large ist SD3 Medium kleiner und läuft effizient auf Consumer-Hardware.“
Um Stable Diffusion Medium auszuführen, benötigen Nutzer lediglich 5 GB GPU-VRAM, was die Nutzung auf verschiedenen Consumer-PCs und High-End-Laptops ermöglicht. Obwohl dies die Mindestanforderung ist, empfiehlt Stability AI 16 GB GPU-VRAM für eine optimale Leistung, was, obwohl noch angemessen, für einige Laptops eine Herausforderung darstellen könnte.
Trotz seiner kleineren Größe bietet SD3 Medium beeindruckende Funktionen, die mit denen von SD3 Large vergleichbar sind. Laforte hebt hervor, dass SD3 Medium in den Bereichen Fotorealismus, Befolgung von Eingabeaufforderungen, Typografie und Ressourcenauslastung sowie Feinabstimmung hervorragende Leistungen erbringt. „SD3 Medium entspricht den Fähigkeiten der SD3 Large API, die Nutzer heute schätzen“, erklärte er.
Nutzer können von SD3 realistische Bildausgaben erwarten, dank des 16-Kanal VAE (Variational Autoencoder), der mehr Details pro Megapixel als frühere Modelle bietet. SD3 zeigt zudem bemerkenswerte Fähigkeiten in der Einhaltung natürlicher Spracheingaben, einschließlich räumlicher Wahrnehmung bei der Bildkomposition.
Die Feinabstimmungsfähigkeiten des Modells machen es ausgesprochen anpassungsfähig und effizient im Erfassen von Details aus Feinabstimmungsdaten. Eine verbesserte Typografie ist ein weiteres erhebliches Upgrade, das in SD3 vorhanden ist und auch auf SD3 Medium übertragen wird.
Das herausragende Merkmal von SD3 Medium ist seine Ressourceneffizienz. „Die kleinere Größe und Modularität des Modells mit 2 Milliarden Parametern verringern die Rechenanforderungen, ohne die Leistung zu opfern“, merkte Laforte an. „Das macht SD3 Medium zur idealen Wahl in Umgebungen, in denen Ressourcenmanagement entscheidend ist.“