Die Generierung von Bildern aus einfachen Textanweisungen mit KI war noch nie so schnell, dank der Fortschritte von Stability AI, dem Entwickler des weit verbreiteten Stable Diffusion Modells.
Mit der Ankündigung des SDXL Turbo Modus in dieser Woche können Nutzer nun die Bildgenerierung in Echtzeit genießen, wodurch die Wartezeit für die Verarbeitung von Anfragen durch die KI entfällt. Was zuvor 50 Generationsschritte erforderte, benötigt jetzt nur noch einen, was die Rechenzeit drastisch reduziert. SDXL Turbo kann auf einer A100 GPU ein 512×512 Bild in nur 207 ms erzeugen, was einen deutlichen Fortschritt im Vergleich zu früheren KI-Diffusionsmodellen darstellt.
Das SDXL Turbo Erlebnis ähnelt den Funktionen des prädiktiven Tippens moderner Suchmaschinen, überträgt diese Geschwindigkeit jedoch auf die Echtzeit-Bildgenerierung. Erstaunlicherweise resultiert diese Beschleunigung nicht aus fortschrittlicher Hardware; sie basiert stattdessen auf einer neuartigen Technik namens Adversarial Diffusion Distillation (ADD). Emad Mostaque, Gründer und CEO von Stability AI, erklärte auf X (ehemals Twitter): „Ein Schritt Stable Diffusion XL mit unserem neuen Ansatz Adversarial Distilled Diffusion (ADD) bietet weniger Vielfalt, dafür aber viel schnellere Ergebnisse, mit mehr Varianten in der Zukunft.“
SDXL – Jetzt schneller
Das SDXL Basismodell wurde im Juli vorgestellt, und Mostaque erwartete, dass es eine solide Grundlage für zukünftige Modelle bilden würde. Stable Diffusion steht im Wettbewerb mit anderen Text-zu-Bild-Modellen wie OpenAIs DALL-E und Midjourney.
Ein zentrales Merkmal des SDXL Basismodells sind die ControlNets, die die Kontrolle über die Bildkomposition verbessern. Mit 3,5 Milliarden Parametern bietet es durch das Verständnis eines breiteren Spektrums von Konzepten verbesserte Genauigkeit. SDXL Turbo baut auf diesen Innovationen auf und erhöht die Generationsgeschwindigkeit.
Stability AI folgt einem wachsenden Trend in der Entwicklung generativer KI: Zunächst wird ein genaues Modell produziert, das anschließend für die Leistung optimiert wird – ähnlich wie OpenAIs Ansatz mit GPT-3.5 Turbo und GPT-4 Turbo.
Während generative KI-Modelle beschleunigt werden, ist eine häufige Sorge der Kompromiss zwischen Qualität und Geschwindigkeit. SDXL Turbo zeigt jedoch minimale Einbußen und liefert hochdetaillierte Bilder, die nahezu die gleiche Qualität wie das nicht beschleunigte Pendant aufweisen.
Was ist Adversarial Diffusion Distillation (ADD)?
Das Konzept des Generative Adversarial Network (GAN) ist in der KI bekannt für den Aufbau schneller tiefenlernender neuronaler Netze. Im Gegensatz dazu nutzen traditionelle Diffusionsmodelle einen allmählicheren Prozess, der tendenziell langsamer ist. ADD kombiniert die Vorteile beider Ansätze.
Laut dem ADD-Forschungsbericht ist „das Ziel dieser Arbeit, die überlegene Probenqualität von DMs [Diffusionsmodellen] mit der inhärenten Geschwindigkeit von GANs zu verbinden.“
Die von Stability AI-Forschern entwickelte ADD-Methode zielt darauf ab, andere KI-Methoden zur Bildgenerierung zu übertreffen; es ist die erste Technik, die eine einstufige Echtzeit-Bildsynthese unter Verwendung von Fundament-Modellen erreicht. Durch die Kombination von adversarialem Training mit Score-Distillation nutzt ADD das Wissen aus einem vortrainierten Bilddiffusionsmodell. Die Hauptvorteile sind schnelles Sampling bei gleichzeitig hoher Treue und iterative Verfeinerungsmöglichkeiten.
Experimente zeigen, dass ADD GANs, Latent Consistency Models und andere Diffusions-Distillationsmethoden beim Generieren von Bildern in 1-4 Schritten erheblich übertrifft.
Obwohl Stability AI das SDXL Turbo Modell noch nicht für den kommerziellen Einsatz als bereit betrachtet, ist es derzeit im Preview-Status auf dem Clipdrop-Webdienst des Unternehmens verfügbar. Erste Tests zeigen eine schnelle Bildgenerierung, auch wenn die Clipdrop-Beta möglicherweise einige erweiterte Optionen zur Differenzierung von Bildstilen vermissen lässt. Der Code und die Modellgewichte sind zudem auf Hugging Face unter einer nicht-kommerziellen Forschungs-Lizenz zugänglich.