昨日、私はGoogleが初めての試みでAI製品を成功裏に立ち上げるかどうかを考えていました。そして、VideoPoetの発表を受けて、その答えが出たようです。
今週、GoogleはVideoPoetを発表しました。これは、Google Researchの31人の研究者によって開発された画期的な大規模言語モデル(LLM)で、さまざまな動画生成タスクに対応することを目指しています。このLLMの開発は特に注目に値します。チームの事前レビューリサーチペーパーによると、「既存の多くのモデルは、動画生成において優れたパフォーマンスを発揮する拡散ベースの手法を使用しています。通常、これらのモデルは、Stable Diffusionのような事前トレーニングされた画像モデルを使用して高精度な画像を各フレームに生成し、フレーム間の時間的一貫性を高めるために微調整します。」
これに対し、Googleの研究チームは、テキストやコード生成で一般的に使用されるトランスフォーマーアーキテクチャに基づくLLMを選択しました(例:ChatGPT、Claude 2、Llama 2)。ただし、VideoPoetは動画生成専用にトレーニングされています。
プレトレーニングの重要性
VideoPoetの成功は、公共のインターネットなどから収集した2億7000万本の動画と10億以上のテキスト・画像ペアに基づく広範なプレトレーニングに起因します。このデータは、モデルが利用できるテキストエンベディング、視覚トークン、音声トークンに変換されました。特に、RunwayやGoogleが投資しているPikaなどの高度な消費者向け動画生成ツールと比較すると、その結果は驚異的です。
より長く高品質なクリップと改善された動き
Google Researchによれば、LLMに基づくアプローチにより、現在の拡散ベースの動画生成AIが直面する限界に対処し、より長く高品質なクリップを生成することが可能になっています。これらのAIは、長いシーケンスの一貫した動きの保持に苦労することが多いためです。チームのダン・コンドラチュク氏とデイビッド・ロス氏は、Google Researchのブログで次のように述べています。「動画生成の現在のボトルネックの一つは、一貫した大きな動きを生み出す能力です。多くの主要モデルは小さな動きしか生成できないか、大きな動きを試みると目立つアーティファクトを生み出すことがあります。」
しかし、VideoPoetは、最大16フレームの動画全体にわたって大きく一貫した動きを提供できます。また、さまざまなカメラの動きや視覚スタイルを模倣し、ビジュアルコンテンツに寄り添った新しい音声を生成する多様な機能も備えています。重要なのは、それがテキスト、画像、動画といった複数の入力タイプをプロンプトとして処理できる点です。
これらの動画生成機能を一つのLLMに統合することにより、VideoPoetは複数の専門的なツールを不要にし、動画制作のための包括的なソリューションを提供します。
実際、Google Researchチームが行った調査によると、視聴者はVideoPoet生成のクリップを好む傾向があります。人間がSource-1、VideoCrafter、Phenakiといった拡散モデルと並行してクリップを評価したところ、VideoPoetの動画は常に好まれていました。
Google Researchのブログによれば、「平均して、評価者はVideoPoetの例の24~35%を、競合モデルよりもプロンプトに合致していると選びました。一方、他のモデルに対する割合はわずか8~11%でした。また、41~54%のVideoPoetの例が、他のモデルの11~21%よりも興味深い動きを持っていると評価されました。」
縦型動画生成に特化
Google Researchは、VideoPoetをデフォルトで縦型(ポートレート)動画を生成するようにカスタマイズし、SnapchatやTikTokなどのプラットフォームで人気を博しているモバイル動画オーディエンスにアプローチしています。
将来的には、Google ResearchはVideoPoetの機能を拡張し、テキストから音声、音声から動画への「何でも生成」タスクをサポートすることを目指しています。これにより、動画と音声生成の可能性がさらに高まります。
現在、VideoPoetは一般公開されておらず、Googleからのリリース情報を待っています。それまでの間、このツールが市場の他のツールとどのように対抗するのか、期待が高まります。