Stability AI präsentiert Forschungsvorschau der Stable Video Diffusion Modelle für kreative Anwendungen

Mit der Rückkehr von Sam Altman bei OpenAI intensivieren die Wettbewerber ihre Bemühungen im Bereich der Künstlichen Intelligenz (KI). Nach der Veröffentlichung von Anthropics Claude 2.1 und der Übernahme von Rephrase.ai durch Adobe hat Stability AI Stable Video Diffusion angekündigt, womit das Unternehmen in den zunehmend gefragten Bereich der Videogenerierung einsteigt.

Einführung in Stable Video Diffusion

Stable Video Diffusion (SVD), derzeit nur für Forschungszwecke verfügbar, besteht aus zwei fortschrittlichen KI-Modellen – SVD und SVD-XT – die kurze Videoclips aus Standbildern generieren. Stability AI behauptet, dass diese Modelle qualitativ hochwertige Ausgaben produzieren, die mit bestehenden KI-Videogeneratoren konkurrieren oder diese sogar übertreffen können. Beide Modelle sind als Open Source im Rahmen einer Forschungs-Vorschau verfügbar, mit Plänen zur Integration von Nutzerfeedback zur Verbesserung der Funktionalität für zukünftige kommerzielle Anwendungen.

Verständnis von Stable Video Diffusion

Laut einem Blogbeitrag von Stability AI sind SVD und SVD-XT latente Diffusionsmodelle, die ein einzelnes Standbild akzeptieren, um Videoclips in der Auflösung 576 x 1024 zu generieren. Sie können Inhalte mit Geschwindigkeiten von drei bis 30 Bildern pro Sekunde produzieren, wobei die Clips auf vier Sekunden begrenzt sind. Das SVD-Modell erzeugt 14 Bilder aus einem Standbild, während das SVD-XT-Modell bis zu 25 Bilder erstellen kann. Zur Entwicklung von Stable Video Diffusion wurde das Basismodell von Stability AI mit etwa 600 Millionen Proben aus einem kuratierten Video-Datensatz trainiert und anschließend auf einem kleineren, hochwertigen Datensatz mit bis zu einer Million Clips verfeinert. Dieses Training ermöglicht den Modellen Aufgaben wie Text-zu-Video- und Bild-zu-Video-Generierung. Obwohl die Trainingsdaten aus öffentlich verfügbaren Forschungsdatensätzen stammen, sind die genauen Quellen nicht spezifiziert.

Der Whitepaper zu SVD zeigt, dass dieses Modell weiter verfeinert werden kann, um die Mehrsichtsynthetisierung zu unterstützen, sodass konsistente Ansichten eines Objekts aus einem einzigen Bild entstehen. Die potenziellen Anwendungen von Stable Video Diffusion erstrecken sich über verschiedene Sektoren, einschließlich Werbung, Bildung und Unterhaltung.

Ausgabew Qualität und Einschränkungen

Externen Bewertungen zufolge haben SVD-Ausgaben eine hohe Qualität und übertreffen führende geschlossene Text-zu-Video-Modelle von Runway und Pika Labs. Stability AI erkennt jedoch an, dass sich diese Modelle noch in einer frühen Entwicklungsphase befinden; sie haben oft Schwierigkeiten mit dem photorealistischen Charakter, können Videos ohne Bewegung produzieren und generieren Gesichter oder Menschen oft nicht so präzise wie erwartet.

Für die Zukunft plant das Unternehmen, beide Modelle zu verfeinern, aktuelle Einschränkungen anzugehen und neue Funktionen wie die Unterstützung von Textaufforderungen und Textdarstellung für kommerzielle Zwecke einzuführen. Sie betonen, dass diese Veröffentlichung als Einladung zur offenen Untersuchung dient, um Probleme zu identifizieren und zu lösen, einschließlich potenzieller Verzerrungen, um einen sicheren Einsatz zu gewährleisten.

Stability AI sieht eine Vielzahl von Modellen, die auf dieser Grundlage aufgebaut sind, ähnlich dem Ökosystem rund um die stabile Diffusion. Sie laden auch Anwender ein, sich für eine bevorstehende Web-Erfahrung anzumelden, die die Generierung von Text-zu-Video ermöglichen wird, obwohl der genaue Zeitrahmen für die Verfügbarkeit noch unklar ist.

Wie man die Modelle nutzt

Um die Modelle von Stable Video Diffusion zu erkunden, können Nutzer den Code im GitHub-Repository von Stability AI sowie die erforderlichen Gewichte für die lokale Modellausführung auf der Hugging Face-Seite einsehen. Die Nutzung ist nur nach Zustimmung zu Bedingungen erlaubt, die zulässige und ausgeschlossene Anwendungen festlegen. Aktuelle zulässige Anwendungsfälle umfassen die Generierung von Kunstwerken für Design sowie Bildungs- oder kreative Werkzeuge. Die Erzeugung faktischer Darstellungen von Personen oder Ereignissen liegt jedoch nicht im Rahmen dieses Projekts, laut Stability AI.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles