Googles beeindruckender neuer multimodaler KI-Video-Creator: Entdecken Sie VideoPoet!

Home KI-Nachrichten Googles beeindruckender neuer multimodaler KI-Video-Creator: Entdecken Sie VideoPoet!

Updated on Dezember 20 2023

Gestern überlegte ich, ob Google bei seinem ersten Versuch ein KI-Produkt erfolgreich auf den Markt bringen würde. Mit der Enthüllung von VideoPoet scheint die Antwort vorzuliegen.

Diese Woche stellte Google VideoPoet vor, ein bahnbrechendes großes Sprachmodell (LLM), das von einem Team von 31 Forschern bei Google Research entwickelt wurde und für verschiedene Aufgaben der Videoerstellung konzipiert ist.

Die Entwicklung dieses LLM ist besonders bemerkenswert. Laut dem Vorabforschungsbericht des Teams nutzen die meisten vorhandenen Modelle diffusionbasierte Methoden, die allgemein als die besten Performer in der Videoerzeugung gelten. Üblicherweise beginnen diese Modelle mit einem vortrainierten Bildmodell, wie Stable Diffusion, um hochauflösende Bilder für einzelne Frames zu erstellen und anschließend zu verfeinern, um die zeitliche Konsistenz zwischen den Frames zu verbessern.

Im Gegensatz dazu wählte Googles Forschungsteam ein LLM, das auf der Transformer-Architektur basiert, die gemeinhin für Text- und Code-Generierung verwendet wird (z. B. ChatGPT, Claude 2, Llama 2). VideoPoet wurde jedoch speziell für die Videoproduktion trainiert.

Die Bedeutung des Pre-Trainings

Der Erfolg von VideoPoet beruht auf einem umfangreichen Pre-Training mit 270 Millionen Videos und über 1 Milliarde Text-Bild-Paaren, die aus dem öffentlichen Internet und darüber hinaus stammen. Diese Daten wurden in Text-Embeddings, visuelle Tokens und Audio-Tokens umgewandelt, die das Modell nutzen konnte.

Die Ergebnisse sind beeindruckend, besonders im Vergleich zu fortschrittlichen, verbraucherorientierten Video-Generation-Tools wie Runway und Pika, letzteres ist eine Google-Investition.

Längere, qualitativ hochwertige Clips mit verbesserter Bewegung

Google Research behauptet, dass ihr LLM-basierter Ansatz die Erstellung längerer, hochwertiger Clips ermöglicht und somit aktuelle Einschränkungen von diffusionsbasierten Video-Generation-KIs überwindet, die oft Schwierigkeiten haben, kohärente Bewegungen über längere Sequenzen aufrechtzuerhalten.

Wie die Teammitglieder Dan Kondratyuk und David Ross in einem Blogbeitrag von Google Research feststellten: „Eine der aktuellen Engpässe in der Videoerstellung ist die Fähigkeit, kohärente große Bewegungen zu erzeugen. Viele führende Modelle erzeugen entweder kleine Bewegungen oder produzieren spürbare Artefakte bei größeren Bewegungen.“

VideoPoet hingegen kann größere und konsistentere Bewegungen in Videos von bis zu 16 Frames liefern. Es bietet bereits von Anfang an eine Vielzahl von Funktionen, darunter die Simulation unterschiedlicher Kamerabewegungen, visueller Stile und sogar die Generierung neuer Audioinhalte zur Ergänzung des visuellen Materials. Wichtig ist, dass es verschiedene Eingabetypen – Texte, Bilder und Videos – als Eingabeaufforderungen verarbeiten kann.

Durch die Konsolidierung dieser Video-Generierungsfunktionen in ein einziges LLM beseitigt VideoPoet die Notwendigkeit für mehrere spezialisierte Werkzeuge und bietet eine umfassende, ganzheitliche Lösung für die Videoerstellung.

Tatsächlich ergab eine Umfrage des Google Research-Teams, dass Zuschauer Clips, die mit VideoPoet erstellt wurden, bevorzugten. Bei der Bewertung von Clips im Vergleich zu Diffusionsmodellen wie Source-1, VideoCrafter und Phenaki wurden Videos von VideoPoet konsequent bevorzugt.

Laut dem Google Research-Blog wählten die Bewerter im Durchschnitt 24–35 % der VideoPoet-Beispiele als besser passend zu den Eingaben im Vergleich zu konkurrierenden Modellen, während es bei anderen nur 8–11 % waren. Außerdem wurden 41–54 % der VideoPoet-Beispiele als interessanter in der Bewegung bewertet, während es bei anderen Modellen nur 11–21 % waren.

Für vertikale Videos konzipiert

Google Research hat VideoPoet standardmäßig für die Erstellung von im Hochformat (vertikal) orientierten Videos angepasst, was das mobile Video-Publikum anspricht, das von Plattformen wie Snapchat und TikTok populär gemacht wurde.

Für die Zukunft plant Google Research, die Funktionalität von VideoPoet zu erweitern, um „Any-to-Any“-Generierungsaufgaben zu unterstützen, darunter Text-zu-Audio und Audio-zu-Video, um das Potenzial von Video- und Audio-Generierung weiter voranzutreiben.

Derzeit steht VideoPoet nicht für die öffentliche Nutzung zur Verfügung, und wir warten auf Informationen von Google über dessen Veröffentlichung. Bis dahin steigt die Vorfreude, die Möglichkeit zu erkunden, wie es im Vergleich zu anderen Werkzeugen auf dem Markt abschneidet.

Entdecken Sie Midjourney V6: Verbesserte Eingabeaufforderungen und Funktionen für Text in Bildern enthüllt!

Entdecken Sie, wie Apples neueste KI-Forschung Ihr iPhone-Erlebnis revolutionieren könnte.

Most people like

CodePal

139.3K

CodePal ist eine innovative Plattform, die Entwicklern mit Programmierhilfen und Werkzeugen zur Seite steht, um ihren Entwicklungsworkflow zu optimieren. Durch die Nutzung von CodePal können Entwickler ihre Effizienz und Produktivität steigern, was zu einem reibungsloseren Programmiererlebnis führt.

CodePal AI Code Assistant

getimg.ai

2.3M

Entdecken Sie eine faszinierende Suite von KI-Tools, die zum Erstellen, Bearbeiten und Verbessern von Bildern entwickelt wurden. Entfalten Sie Ihre Kreativität mit unseren leistungsstarken Funktionen, die Ihre künstlerischen Visionen zum Leben erwecken.

KI-Kunstwerkzeuge AI Art Generator

Trellus

43.3K

Präsentation von Trellus, einem innovativen KI-gestützten Tool, das speziell für Vertriebsmitarbeiter entwickelt wurde, um personalisiertes Coaching und Echtzeitanalysen während ihrer Kaltakquise anzubieten. Mit Trellus verbessern Sie Ihre Kaltakquise-Strategie und steigern den Verkaufserfolg durch maßgeschneiderte Einblicke und Unterstützung.

KI-Vertriebsschulung Sales Assistant

RunPod

616K

RunPod ist eine führende globale Cloud-Plattform, die für KI-Inferenz und -Training entwickelt wurde und umfassende GPU-Unterstützung bietet. Unser Service ermöglicht es Entwicklern und Datenwissenschaftlern, moderne Technologien effizient zu nutzen, um schnelle und skalierbare Maschinenlernen-Lösungen zu gewährleisten. Erleben Sie nahtlose Leistung und optimale Ressourcennutzung mit RunPod.

GPU-Vermietung Other

Find AI tools in YBX