Seit OpenAI Anfang dieses Jahres sein Sora-Modell zur Generierung von KI-Videos vorgestellt hat, haben nur wenige Konkurrenten mit seiner Realitätsnähe und Qualität mithalten können – bis jetzt.
Während der jährlichen I/O-Entwicklerkonferenz kündigte Google Veo an, ein neues generatives KI-Videomodell, das von seiner renommierten DeepMind-Abteilung entwickelt wurde. Google beschreibt Veo als fähig, "hochwertige 1080p-Clips von über 60 Sekunden zu erzeugen." Ein Beitrag auf DeepMinds X-Account erklärt, dass das Modell eine Vielzahl von filmischen Stilen beherrscht, von fotorealistisch und surrealistisch bis hin zu Animation.
Auf seiner Produktseite betont Google, dass Veo darauf abzielt, "die Videoproduktion für alle zugänglich zu machen", sei es für erfahrene Filmemacher, angehende Kreative oder Pädagogen. Veo unterstützt Transformationen von Text zu Video, von Video zu Video und von Bild zu Video.
In Zusammenarbeit mit dem Multitalent Donald Glover, auch bekannt als Childish Gambino, testete Google Veos neue Funktionen über sein kreatives Studio Gilga. DeepMind demonstrierte die beeindruckenden Fähigkeiten von Veo, indem mehrere generierte Videos auf seinen YouTube- und X-Kanälen präsentiert wurden, die Szenen wie eine Neonstadt, lebensechte Quallen, Cowboys auf Pferden, Raumschiffe, die das All erkunden, und menschliche Interaktionen zeigen. Die Ergebnisse ahmen Live-Action und gekonnt gestaltete Animationen nach, alles aus einfachen Textaufforderungen erstellt.
In einem Blogbeitrag von Google VP Eli Collins und Senior Research Director Douglas Eck wird Veo als Modell mit einem "beispiellosen Maß an kreativer Kontrolle" hervorgehoben, das ein starkes Verständnis für filmische Begriffe wie "Zeitraffer" und "Luftaufnahmen" zeigt.
Darüber hinaus ermöglicht Veo schnelle, hochwertige Bearbeitungen sowohl von KI-generierten als auch von vom Nutzer hochgeladenen Videos, einschließlich vorab aufgenommenem Material. Beispielsweise können Nutzer einen Editing-Befehl eingeben, etwa das Hinzufügen von Kajaks zu einem Luftaufnahme-Video von einer Küstenlinie, und Veo kann dies nahtlos in das Originalvideo integrieren.
Veo überzeugt auch durch die Konsistenz über Video-Frames hinweg und behebt einige Inkonsistenzen, die typischerweise in anderen Modellen, inklusive Sora, zu finden sind. Dies wird durch fortschrittliche latente Diffusions-transformationen erreicht, die sicherstellen, dass Charaktere und Objekte zusammenhängend und realistisch bleiben.
Um die Leistung zu verbessern, hat Google die Trainingsdatenbeschreibungen optimiert und hochwertige komprimierte Video-Darstellungen verwendet. Diese Optimierung steigert die Gesamtvideogüte und reduziert die Generierungszeit.
Alle von Veo generierten Videos sind mit SynthID, Googles Wasserzeichen zur Inhaltsverifizierung, versehen, das ihren KI-generierten Status bestätigt.
Veo steht für jahrelange Forschung bei DeepMind und baut auf vorherigen Innovationen wie Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere auf. Derzeit ist Veo nicht öffentlich verfügbar. Analog zu OpenAIs Sora-Modell ist es über eine private Vorschau in VideoFX für ausgewählte Kreative zugänglich. Google plant, einige von Veos Funktionen schließlich in YouTube Shorts und anderen Produkten zu integrieren.