Stability AI, bekannt für seinen Stable Diffusion Text-zu-Bild-Generator, hat sein neuestes Grundlagenmodell, Stable Video Diffusion (SVD), eingeführt. Dieses Modell ist nun über die Entwicklerplattform und die API des Unternehmens zugänglich, was Drittentwicklern ermöglicht, es in ihre Apps, Websites und Softwarelösungen zu integrieren.
„Diese neue Ergänzung bietet programmgesteuerten Zugang zu einem hochmodernen Videomodel, das für verschiedene Sektoren maßgeschneidert ist. Unser Ziel ist es, Entwicklern eine effiziente Methode zu bieten, um fortschrittliche Videogenerierung nahtlos in ihre Produkte zu integrieren“, erklärte das Unternehmen in einem Blogbeitrag.
Obwohl diese Veröffentlichung ein leistungsstarkes Werkzeug für Unternehmen darstellt, die KI-generierte Videos erstellen möchten, wirft sie auch Bedenken auf. Stability AI sieht sich in jüngster Zeit wegen der Nutzung des LAION-5B-Datensatzes, der unangemessene Inhalte beinhaltete und mittlerweile aus dem Verkehr gezogen wurde, kritischer Betrachtung ausgesetzt.
Trotz dieser Herausforderungen bietet die SVD API einen Wettbewerbsvorteil in der Videoqualität. Laut einem LinkedIn-Post des Unternehmens kann das SVD-Modell in nur 41 Sekunden 2 Sekunden Video generieren, einschließlich 25 generierter Frames und 24 Frames FILM-Interpolation. Obwohl dies für umfangreiche Videokampagnen möglicherweise nicht ausreichend ist, ist es vorteilhaft für die Erstellung von GIFs und spezifischen Botschaften, einschließlich Memes.
SVD konkurriert mit anderen Videogenerierungsmodellen von Runway und Pika Labs, die kürzlich 55 Millionen Dollar an Finanzierung sichern konnten und eine neue Videobearbeitungsplattform eingeführt haben. Im Gegensatz zu Stability AI sind diese Optionen jedoch nicht über eine API verfügbar, sodass Benutzer direkt auf ihren jeweiligen Websites oder Apps darauf zugreifen müssen.
Darüber hinaus plant Stability AI, eine benutzerfreundliche Webanwendung für seinen Video-Generator zu starten und ermutigt die Nutzer, sich für einen frühen Zugang auf die Warteliste zu setzen.
Stable Video Diffusion verstehen
Stable Video Diffusion, das vor einem Monat in einer Forschungsansicht vorgestellt wurde, ermöglicht es Benutzern, MP4-Videos aus Standbildern wie JPGs und PNGs zu erstellen. Erste Muster zeigen, dass das Modell zwar kurze Clips von bis zu zwei Sekunden erzeugen kann, sich jedoch noch in der Entwicklungsphase befindet und in der Dauer hinter einigen forschungsorientierten Modellen zurückbleibt.
Mehrere kurze Clips können kombiniert werden, um längere Videos zu erstellen. Stability AI behauptet, dass das Modell in Sektoren wie Werbung, Marketing, Fernsehen, Film und Gaming von Nutzen sein kann.
Das neueste Modell kann Videos in verschiedenen Layouts und Auflösungen generieren, darunter 1024×576, 768×768 und 576×1024. Es bietet auch eine Steuerung der Bewegungskraft und eine generation basierend auf Seeds, die sowohl wiederholbare als auch zufällige Ausgaben ermöglichen.
Navigieren durch Kontroversen
Während die Einführung von Stable Video Diffusion eine vereinfachte Möglichkeit für Unternehmen bietet, Videofunktionen zu integrieren, verdeutlicht sie Stability AIs Engagement, sich inmitten laufender Kontroversen über die Quellen der Trainingsdaten im Markt zu etablieren.
Kürzlich enthüllte ein Bericht des Stanford Internet Observatory, dass der LAION-5B-Datensatz, der zur Ausbildung beliebter KI-Modelle verwendet wurde, unangemessene Materialien enthielt, was zu seiner Entfernung führte. Darüber hinaus sieht sich das Unternehmen einer Sammelklage gegenüber, die sich auf die mutmaßliche Aneignung urheberrechtlich geschützter Bilder ohne Erlaubnis zur Erstellung von Stable Diffusion stützt.
Derzeit bietet die API der Entwicklerplattform von Stability AI Zugang zu allen seinen Modellen, einschließlich des Stable Diffusion XL Text-zu-Bild-Generators und des neuen SVD-Modells. Das Unternehmen bietet auch eine Mitgliedschaftsoption für Kunden an, um diese Modelle lokal zu hosten.