Gestern überlegte ich, ob Google bei seinem ersten Versuch ein KI-Produkt erfolgreich auf den Markt bringen würde. Mit der Enthüllung von VideoPoet scheint die Antwort vorzuliegen.
Diese Woche stellte Google VideoPoet vor, ein bahnbrechendes großes Sprachmodell (LLM), das von einem Team von 31 Forschern bei Google Research entwickelt wurde und für verschiedene Aufgaben der Videoerstellung konzipiert ist.
Die Entwicklung dieses LLM ist besonders bemerkenswert. Laut dem Vorabforschungsbericht des Teams nutzen die meisten vorhandenen Modelle diffusionbasierte Methoden, die allgemein als die besten Performer in der Videoerzeugung gelten. Üblicherweise beginnen diese Modelle mit einem vortrainierten Bildmodell, wie Stable Diffusion, um hochauflösende Bilder für einzelne Frames zu erstellen und anschließend zu verfeinern, um die zeitliche Konsistenz zwischen den Frames zu verbessern.
Im Gegensatz dazu wählte Googles Forschungsteam ein LLM, das auf der Transformer-Architektur basiert, die gemeinhin für Text- und Code-Generierung verwendet wird (z. B. ChatGPT, Claude 2, Llama 2). VideoPoet wurde jedoch speziell für die Videoproduktion trainiert.
Die Bedeutung des Pre-Trainings
Der Erfolg von VideoPoet beruht auf einem umfangreichen Pre-Training mit 270 Millionen Videos und über 1 Milliarde Text-Bild-Paaren, die aus dem öffentlichen Internet und darüber hinaus stammen. Diese Daten wurden in Text-Embeddings, visuelle Tokens und Audio-Tokens umgewandelt, die das Modell nutzen konnte.
Die Ergebnisse sind beeindruckend, besonders im Vergleich zu fortschrittlichen, verbraucherorientierten Video-Generation-Tools wie Runway und Pika, letzteres ist eine Google-Investition.
Längere, qualitativ hochwertige Clips mit verbesserter Bewegung
Google Research behauptet, dass ihr LLM-basierter Ansatz die Erstellung längerer, hochwertiger Clips ermöglicht und somit aktuelle Einschränkungen von diffusionsbasierten Video-Generation-KIs überwindet, die oft Schwierigkeiten haben, kohärente Bewegungen über längere Sequenzen aufrechtzuerhalten.
Wie die Teammitglieder Dan Kondratyuk und David Ross in einem Blogbeitrag von Google Research feststellten: „Eine der aktuellen Engpässe in der Videoerstellung ist die Fähigkeit, kohärente große Bewegungen zu erzeugen. Viele führende Modelle erzeugen entweder kleine Bewegungen oder produzieren spürbare Artefakte bei größeren Bewegungen.“
VideoPoet hingegen kann größere und konsistentere Bewegungen in Videos von bis zu 16 Frames liefern. Es bietet bereits von Anfang an eine Vielzahl von Funktionen, darunter die Simulation unterschiedlicher Kamerabewegungen, visueller Stile und sogar die Generierung neuer Audioinhalte zur Ergänzung des visuellen Materials. Wichtig ist, dass es verschiedene Eingabetypen – Texte, Bilder und Videos – als Eingabeaufforderungen verarbeiten kann.
Durch die Konsolidierung dieser Video-Generierungsfunktionen in ein einziges LLM beseitigt VideoPoet die Notwendigkeit für mehrere spezialisierte Werkzeuge und bietet eine umfassende, ganzheitliche Lösung für die Videoerstellung.
Tatsächlich ergab eine Umfrage des Google Research-Teams, dass Zuschauer Clips, die mit VideoPoet erstellt wurden, bevorzugten. Bei der Bewertung von Clips im Vergleich zu Diffusionsmodellen wie Source-1, VideoCrafter und Phenaki wurden Videos von VideoPoet konsequent bevorzugt.
Laut dem Google Research-Blog wählten die Bewerter im Durchschnitt 24–35 % der VideoPoet-Beispiele als besser passend zu den Eingaben im Vergleich zu konkurrierenden Modellen, während es bei anderen nur 8–11 % waren. Außerdem wurden 41–54 % der VideoPoet-Beispiele als interessanter in der Bewegung bewertet, während es bei anderen Modellen nur 11–21 % waren.
Für vertikale Videos konzipiert
Google Research hat VideoPoet standardmäßig für die Erstellung von im Hochformat (vertikal) orientierten Videos angepasst, was das mobile Video-Publikum anspricht, das von Plattformen wie Snapchat und TikTok populär gemacht wurde.
Für die Zukunft plant Google Research, die Funktionalität von VideoPoet zu erweitern, um „Any-to-Any“-Generierungsaufgaben zu unterstützen, darunter Text-zu-Audio und Audio-zu-Video, um das Potenzial von Video- und Audio-Generierung weiter voranzutreiben.
Derzeit steht VideoPoet nicht für die öffentliche Nutzung zur Verfügung, und wir warten auf Informationen von Google über dessen Veröffentlichung. Bis dahin steigt die Vorfreude, die Möglichkeit zu erkunden, wie es im Vergleich zu anderen Werkzeugen auf dem Markt abschneidet.