Stability AI erweitert seine Angebote im Bereich generative KI mit der Einführung von Stable Video 3D (SV3D). Wie der Name schon andeutet, handelt es sich bei SV3D um ein generatives KI-Video-Tool, das 3D-Videos rendern kann. Aufbauend auf der grundlegenden Stable Video-Technologie, die es Nutzern ermöglicht, kurze Videos aus Bildern oder Textaufforderungen zu erstellen, verbessert SV3D die Videofunktionalitäten für neuartige Bildsynthese und 3D-Generierung, und bringt erhebliche Verbesserungen im Vergleich zum vorherigen Stable Video Diffusion-Modell.
Mit SV3D verleiht Stability AI seiner Videogenerierungstechnologie erheblichen Tiefgang. Das Modell ermöglicht die Erstellung und Transformation von Multiview-3D-Meshes aus einem einzelnen Eingangsbild. SV3D ist jetzt für kommerzielle Nutzung mit einer Stability AI Professional Membership verfügbar, die für Kreative und Entwickler, die weniger als 1 Million US-Dollar jährlich verdienen, 20 US-Dollar pro Monat kostet. Für nicht-kommerzielle Zwecke können Nutzer die Modellspezifikationen kostenlos von Hugging Face herunterladen.
Zielanwendungen: Spieleentwicklung und E-Commerce
„Durch die Anpassung unseres Stable Video Diffusion-Bild-zu-Video-Modells mit Kamera-Pfad-Bedingungen generiert Stable Video 3D Mehransichten-Videos eines Objekts“, bemerkte das Unternehmen in einem Blogbeitrag über das neue Modell. „Stable Video 3D ist besonders wertvoll für die Erstellung von 3D-Assets im Gaming-Sektor“, sagte Varun Jampani, leitender Forscher bei Stability AI. „Es produziert zudem 360-Grad-Orbitalvideos, die das immersive Einkaufserlebnis im E-Commerce erweitern.“
Von Stable Zero123 zu SV3D
Stability AI ist bekannt für seine Stable Diffusion Text-zu-Bild generativen KI-Modelle, einschließlich SDXL und Stable Diffusion 3.0, letzteres derzeit in der frühen Forschungsphase. Das Open-Source-Modell Stable Diffusion 1.5 bildet die Grundlage für viele KI-Bilderzeugungs- und Videoplattformen wie Runway und Leonardo AI. Im Dezember 2023 veröffentlichte Stability AI das Modell Stable Zero123, das neue Möglichkeiten für die 3D-Bilderstellung vorstellte. Emad Mostaque, Gründer und CEO von Stability AI, erklärte, dass dieses Modell das erste einer Serie sei, die sich auf 3D-Technologien konzentriert.
SV3D verfolgt einen anderen Ansatz zur 3D-Generierung im Vergleich zu Stable Zero123. „Stable Video 3D dient sowohl als Nachfolger als auch als Erweiterung unseres früheren Modells, Stable Zero123“, erklärte Jampani. „Dieses neue Modell verwendet ein neuartiges Bildsynthesenetzwerk, das mehrere neue Sichtbilder aus einem einzigen Eingang generiert.“ Im Gegensatz zu Stable Zero123, das auf Stable Diffusion angewiesen ist, um jeweils ein Bild auszugeben, nutzt SV3D Stable Video Diffusion-Modelle, um mehrere neue Ansichten gleichzeitig zu erzeugen, was zu einer überlegenen Qualität und einer effektiveren 3D-Mesh-Generierung aus einem einzelnen Bild führt.
Konsistente Ansichten aus jedem Winkel
Eine Forschungsarbeit von Stability AI behandelt Techniken zur Generierung von 3D-Visualisierungen aus einem einzigen Bild mittels latenter Video-Diffusion. „Jüngste Fortschritte in der 3D-Generierung passen 2D-generative Modelle für neuartige Bildsynthese (NVS) und 3D-Optimierung an“, heißt es in dem Bericht. Viele bestehende Methoden stehen jedoch vor Herausforderungen wie begrenzten Perspektiven und inkonsistenten Ausgaben.
Die Hauptstärke von SV3D liegt in der Fähigkeit, konsistente Multiview-Bilder eines Objekts bereitzustellen und kohärente Perspektiven aus verschiedenen Winkeln zu bieten. Die Forschungsarbeit hebt diesen Fortschritt hervor und stellt fest: „Im Gegensatz zu früheren Ansätzen, die mit eingeschränkten Ansichten und Inkonsistenzen kämpfen, bietet Stable Video 3D kohärente Ansichten aus jedem Winkel mit effektiver Generalisierung.“ Neben der Verbesserung der Bildsynthese zielt SV3D darauf ab, 3D-Meshes zu optimieren. Die Konsistenz in den Multiview-Ausgaben ermöglicht die hochwertige 3D-Mesh-Generierung direkt aus den produzierten Ausgaben. „Stable Video 3D nutzt seine Multiview-Konsistenz zur Optimierung von 3D Neural Radiance Fields (NeRF) und Mesh-Darstellungen, was die Qualität der generierten 3D-Meshes erheblich verbessert“, erklärte Stability AI in ihrer Ankündigung.
Zwei Varianten: SV3Du und SV3Dp
SV3D ist in zwei Varianten erhältlich, die jeweils auf unterschiedliche Anwendungsfälle zugeschnitten sind. SV3Du generiert Orbitalvideos aus einzelnen Bild-Eingaben, ohne dass eine Kamerabedingung erforderlich ist. Die Kamerabedingung bezieht sich auf zusätzliche Eingaben, häufig Bilder oder Parameter zu Kameraperspektiven, die den Generierungsprozess leiten. Im Gegensatz dazu unterstützt SV3Dp sowohl Einzelbilder als auch Orbitalansichten und ermöglicht es den Nutzern, 3D-Videos entlang vorgegebener Kamerapfade zu erstellen.