Stability AI präsentiert Forschungsvorschau der Stable Video Diffusion Modelle für kreative Anwendungen

Home KI-Nachrichten Stability AI präsentiert Forschungsvorschau der Stable Video Diffusion Modelle für kreative Anwendungen

Updated on November 23 2023

Mit der Rückkehr von Sam Altman bei OpenAI intensivieren die Wettbewerber ihre Bemühungen im Bereich der Künstlichen Intelligenz (KI). Nach der Veröffentlichung von Anthropics Claude 2.1 und der Übernahme von Rephrase.ai durch Adobe hat Stability AI Stable Video Diffusion angekündigt, womit das Unternehmen in den zunehmend gefragten Bereich der Videogenerierung einsteigt.

Einführung in Stable Video Diffusion

Stable Video Diffusion (SVD), derzeit nur für Forschungszwecke verfügbar, besteht aus zwei fortschrittlichen KI-Modellen – SVD und SVD-XT – die kurze Videoclips aus Standbildern generieren. Stability AI behauptet, dass diese Modelle qualitativ hochwertige Ausgaben produzieren, die mit bestehenden KI-Videogeneratoren konkurrieren oder diese sogar übertreffen können. Beide Modelle sind als Open Source im Rahmen einer Forschungs-Vorschau verfügbar, mit Plänen zur Integration von Nutzerfeedback zur Verbesserung der Funktionalität für zukünftige kommerzielle Anwendungen.

Verständnis von Stable Video Diffusion

Laut einem Blogbeitrag von Stability AI sind SVD und SVD-XT latente Diffusionsmodelle, die ein einzelnes Standbild akzeptieren, um Videoclips in der Auflösung 576 x 1024 zu generieren. Sie können Inhalte mit Geschwindigkeiten von drei bis 30 Bildern pro Sekunde produzieren, wobei die Clips auf vier Sekunden begrenzt sind. Das SVD-Modell erzeugt 14 Bilder aus einem Standbild, während das SVD-XT-Modell bis zu 25 Bilder erstellen kann. Zur Entwicklung von Stable Video Diffusion wurde das Basismodell von Stability AI mit etwa 600 Millionen Proben aus einem kuratierten Video-Datensatz trainiert und anschließend auf einem kleineren, hochwertigen Datensatz mit bis zu einer Million Clips verfeinert. Dieses Training ermöglicht den Modellen Aufgaben wie Text-zu-Video- und Bild-zu-Video-Generierung. Obwohl die Trainingsdaten aus öffentlich verfügbaren Forschungsdatensätzen stammen, sind die genauen Quellen nicht spezifiziert.

Der Whitepaper zu SVD zeigt, dass dieses Modell weiter verfeinert werden kann, um die Mehrsichtsynthetisierung zu unterstützen, sodass konsistente Ansichten eines Objekts aus einem einzigen Bild entstehen. Die potenziellen Anwendungen von Stable Video Diffusion erstrecken sich über verschiedene Sektoren, einschließlich Werbung, Bildung und Unterhaltung.

Ausgabew Qualität und Einschränkungen

Externen Bewertungen zufolge haben SVD-Ausgaben eine hohe Qualität und übertreffen führende geschlossene Text-zu-Video-Modelle von Runway und Pika Labs. Stability AI erkennt jedoch an, dass sich diese Modelle noch in einer frühen Entwicklungsphase befinden; sie haben oft Schwierigkeiten mit dem photorealistischen Charakter, können Videos ohne Bewegung produzieren und generieren Gesichter oder Menschen oft nicht so präzise wie erwartet.

Für die Zukunft plant das Unternehmen, beide Modelle zu verfeinern, aktuelle Einschränkungen anzugehen und neue Funktionen wie die Unterstützung von Textaufforderungen und Textdarstellung für kommerzielle Zwecke einzuführen. Sie betonen, dass diese Veröffentlichung als Einladung zur offenen Untersuchung dient, um Probleme zu identifizieren und zu lösen, einschließlich potenzieller Verzerrungen, um einen sicheren Einsatz zu gewährleisten.

Stability AI sieht eine Vielzahl von Modellen, die auf dieser Grundlage aufgebaut sind, ähnlich dem Ökosystem rund um die stabile Diffusion. Sie laden auch Anwender ein, sich für eine bevorstehende Web-Erfahrung anzumelden, die die Generierung von Text-zu-Video ermöglichen wird, obwohl der genaue Zeitrahmen für die Verfügbarkeit noch unklar ist.

Wie man die Modelle nutzt

Um die Modelle von Stable Video Diffusion zu erkunden, können Nutzer den Code im GitHub-Repository von Stability AI sowie die erforderlichen Gewichte für die lokale Modellausführung auf der Hugging Face-Seite einsehen. Die Nutzung ist nur nach Zustimmung zu Bedingungen erlaubt, die zulässige und ausgeschlossene Anwendungen festlegen. Aktuelle zulässige Anwendungsfälle umfassen die Generierung von Kunstwerken für Design sowie Bildungs- oder kreative Werkzeuge. Die Erzeugung faktischer Darstellungen von Personen oder Ereignissen liegt jedoch nicht im Rahmen dieses Projekts, laut Stability AI.

Anwendung von Natural Language Processing in der Cybersicherheit: Eine Schritt-für-Schritt-Anleitung

KI: Den Ideologischen Konfliktbereich Navigieren

Most people like

Abby

24.1K

Entdecken Sie Ihren rund um die Uhr verfügbaren, KI-gestützten persönlichen Therapeuten, der Ihnen jederzeit Unterstützung für Ihre mentale Gesundheit bietet.

KI-Therapie AI Chatbot

AINIRO.IO

15.8K

Einführung von AINIRO ChatGPT: ein hochmoderner KI-Chatbot, der speziell für Unternehmen entwickelt wurde und mit einer Vielzahl innovativer Funktionen ausgestattet ist, die bemerkenswerte Ergebnisse liefern. Optimieren Sie Ihre Kundeninteraktionen und steigern Sie die Effizienz mit dieser fortschrittlichen Conversational-AI-Lösung.

benutzerdefinierter Chatbot AI Chatbot

Formshare

14.7K

In der heutigen digitalen Landschaft ist die schnelle Erstellung individueller Formulare für Unternehmen unerlässlich. Mit fortschrittlichen KI-Tools können Sie mühelos intelligente Formulare erstellen, ohne Programmierkenntnisse zu benötigen. Dieser benutzerfreundliche Ansatz ermöglicht es jedem – von Unternehmern bis hin zu Marketingfachleuten –, die Datensammlung zu optimieren und die Benutzererlebnisse zu verbessern, während Zeit und Ressourcen gespart werden. Entdecken Sie, wie die KI-gesteuerte Formularerstellung Ihren Arbeitsablauf vereinfacht und Ihre Projekte aufwertet, sodass sie für jedermann zugänglich ist, unabhängig von den technischen Fähigkeiten.

Konversationale KI No-Code&Low-Code

Harbor AI SEO Content Generator

36.6K

Präsentation eines leistungsstarken SEO-Tools, das mühelos optimierte Artikel und Blogbeiträge erstellt. Steigern Sie Ihre Content-Strategie und generieren Sie organischen Traffic mühelos mit unserer benutzerfreundlichen Plattform. Egal, ob Sie ein erfahrener Marketer oder ein Anfänger sind, unser Tool vereinfacht den Schreibprozess und sorgt dafür, dass Ihre Inhalte in Suchmaschinen besser platziert werden, während sie Ihr Publikum effektiv ansprechen. Entfalten Sie das Potenzial für mehr Sichtbarkeit und Engagement mit unserer innovativen Lösung.

SEO-Inhaltserzeuger AI SEO Assistant

Find AI tools in YBX