Stable Diffusion, die Open-Source-Alternative zu KI-Bildgeneratoren wie Midjourney und DALL-E, hat die Version 3.5 veröffentlicht. Dieses Update spricht die Kritik an Stable Diffusion 3 Medium an, die auf breite Ablehnung stieß. Stability AI betont, dass das Modell 3.5 eine verbesserte Einhaltung von Eingabeaufforderungen bietet und in der Bildqualität mit größeren Modellen konkurriert. Zudem ist es darauf ausgelegt, eine Vielzahl von Stilen, Hauttönen und Merkmalen ohne explizite Eingaben zu erzeugen.
Das neue Modell ist in drei Versionen erhältlich:
1. Stable Diffusion 3.5 Large: Diese leistungsstärkste Variante bietet höchste Qualität und setzt Maßstäbe in der Eingabeaufforderung. Stability AI gibt an, dass es für professionelle Anwendungen bei 1 MP geeignet ist.
2. Stable Diffusion 3.5 Large Turbo: Diese optimierte Version des Large-Modells legt den Fokus auf Effizienz und generiert in nur vier Schritten hochwertige Bilder mit hervorragender Eingabeaufforderung.
3. Stable Diffusion 3.5 Medium: Entwickelt für Verbrauchermaschinen, bietet dieses Modell ein Gleichgewicht zwischen Qualität und Zugänglichkeit und ermöglicht die Bildgenerierung zwischen 0,25 und 2 Megapixeln. Allerdings wird diese Version erst am 29. Oktober verfügbar sein, während die ersten beiden Modelle bereits zugänglich sind.
Die Veröffentlichung 3.5 folgt dem problematischen Launch von Stable Diffusion 3 Medium im Juni, bei dem das Modell absurde, groteske Bilder auf einfache Aufforderungen hin erzeugte. Stability AI räumte ein, dass diese vorherige Version „unsere Standards und die Erwartungen unserer Gemeinschaft nicht vollständig erfüllt hat“ und legt nun einen starken Fokus auf die Eingabeaufforderung.
Darüber hinaus umfasst die 3.5-Serie neue Filter, die darauf abzielen, menschliche Vielfalt besser darzustellen, indem sie verschiedene Hauttöne und Merkmale ohne umfangreiche Eingaben zeigen. Diese Verbesserung ist eine Reaktion auf frühere Fehler in der Darstellung, wie zum Beispiel die Kontroversen um Google’s Gemini-Modell, das historisch ungenaue Bilder generierte. Die Kritik an diesem Vorfall führte dazu, dass Google die Integration menschlicher Generationen um sechs Monate verzögerte.
Mit diesen Verbesserungen hoffen wir, dass Stable Diffusion 3.5 die Nuancen menschlicher Vielfalt und historischer Kontexte in seinen Ausgaben effektiv erfassen kann.