Stability AI stellt SVD 1.1 vor: Ein Fortschritt in der KI-Videoerstellung
Stability AI, bekannt für seine wachsende Palette an Open-Source-KI-Modellen zur Inhaltserstellung und Programmierung, hat ein Upgrade seines bildbasierten latenten Diffusionsmodells, Stable Video Diffusion (SVD), angekündigt.
Einführung von SVD 1.1
Die neue Version, SVD 1.1, ist eine verbesserte Iteration von SVD 1.0, optimiert für die Erstellung kurzer KI-Videos mit verbesserter Bewegung und konsistenteren Ergebnissen. Tom Mason, CTO von Stability AI, bestätigte, dass SVD 1.1 jetzt öffentlich über Hugging Face zum Download zur Verfügung steht. Außerdem wird es in den Abonnements von Stability AI enthalten sein, die für Einzelpersonen und Unternehmen zwischen kostenlos und 20 USD pro Monat variieren. Kommerzielle Nutzer benötigen ein Abonnement für die Bereitstellung, während die Nutzung für Forschungszwecke offen und kostenlos bleibt.
Verbesserte Funktionen von SVD 1.1
Im November 2023 führte Stability AI zunächst zwei Modelle zur KI-Videoerstellung ein: SVD, das vier Sekunden lange Videos mit bis zu 14 Bildern aus einem Standbild erzeugte, und SVD-XT, eine optimierte Version, die bis zu 25 Bilder generierte. Aufbauend auf SVD-XT erzeugt das neueste SVD 1.1 ebenfalls vier Sekunden lange Videos mit 25 Bildern in einer Auflösung von 1024×576, vorausgesetzt, es wird ein Kontextbild derselben Größe bereitgestellt.
Wesentlich ist, dass dieses Upgrade eine höhere Konsistenz in der Videoausgabe im Vergleich zu früheren Versionen anstrebt. Frühere Modelle hatten gelegentlich Schwierigkeiten mit Fotorealismus, fehlender Bewegung und der Erzeugung realistischer Gesichter und Personen. SVD 1.1 zielt darauf ab, diese Probleme zu lösen und verspricht verbesserte Bewegungsdynamik in den endgültigen Ausgaben.
Laut dem Unternehmen wurde "das Feintuning für SVD 1.1 mit einer festen Bedingung von 6 FPS und motion bucket ID 127 durchgeführt, um die Konsistenz der Ausgaben zu verbessern, ohne dass Hyperparameter angepasst werden mussten." Diese Einstellungen sind zwar anpassbar, doch kann die Leistung außerhalb dieser festen Bedingungen variieren.
Leistung und Zukunftsaussichten
Obwohl Stability AI Verbesserungen mit SVD 1.1 behauptet, muss die praktische Wirksamkeit noch beurteilt werden. Die Hugging Face-Seite für das Modell betont dessen forschungsorientiertes Design und erkennt an, dass einige Herausforderungen aus früheren Versionen weiterhin bestehen könnten.
Neben Hugging Face sind die Stable Video Diffusion-Modelle über eine API auf der Stability AI-Entwicklerplattform zugänglich, die es Entwicklern ermöglicht, fortschrittliche Videoerstellungsfunktionen nahtlos in ihre Anwendungen zu integrieren. Die Stable Video Diffusion API generiert vier Sekunden Video mit 24 FPS im MP4-Format, wobei 25 generierte Bilder und interpolierte Bilder erstellt werden. Funktionen wie die Steuerung der Bewegungsstärke sowie Unterstützung mehrerer Layouts und Auflösungen – einschließlich 1024×576, 768×768 und 576×1024 – verbessern die Benutzerfreundlichkeit.
Blick in die Zukunft
Im Jahr 2023 machte Stability AI bedeutende Fortschritte im Bereich generative KI mit häufigen Modell-Updates, ein Trend, der voraussichtlich bis 2024 anhalten wird. Das 2019 gegründete Unternehmen hat erhebliche Investitionen angezogen, darunter eine Finanzierungsrunde über 101 Millionen USD im Jahr 2022. Dennoch sieht es sich dem Wettbewerb anderer Anbieter im Bereich der KI-Videoerstellung gegenüber, wie Runway und Pika, die beide durch benutzerfreundliche Webplattformen, die auch Videobearbeitung und -hochskalierung anbieten, an Bedeutung gewinnen.
Kürzlich führte Runway die Multi Motion Brush-Funktion ein, mit der Nutzer bestimmte Bereiche ihrer KI-Videos animieren können. Ähnlich ermöglicht Pika den Nutzern, spezifische Bereiche in Videos zu bearbeiten, beispielsweise das Gesicht einer Kuh in das einer Ente zu verwandeln. Allerdings bieten beide keine APIs für ihre Modelle, was die Integration in Drittanwendungen einschränkt.
Da sich die Landschaft der KI-Videoerstellung weiterentwickelt, stellt SVD 1.1 von Stability AI einen aufregenden Fortschritt dar, den es zu beobachten gilt.