企業が生成AIの可能性を活用する中で、より高度なソリューションの開発が加速しています。その中で注目すべきなのが、Google、ワイズマン科学研究所、テルアビブ大学の研究者によって開発された「ルミエール」という時空間拡散モデルです。この技術は、リアルなビデオ生成を向上させることを目的としています。
最新の論文ではルミエールの革新的な技術が説明されていますが、一般公開はまだ行われていません。公開されると、Googleは現在Runway、Pika、Stability AIが主導するAIビデオ市場において強力な競合となる可能性があります。
ルミエールの機能とは?
「光」を意味するルミエールは、リアルでスタイライズされたビデオを生成するための拡散モデルです。ユーザーは自然言語でテキストを入力することで、プロンプトに基づくビデオを作成できます。また、静止画像をアップロードし、それにテキストプロンプトを適用することで動的なビデオに変換することも可能です。主な機能には以下のものがあります:
- インペインティング: テキストコマンドに基づいて特定のオブジェクトを挿入。
- シネマグラフ: シーンの一部に動きを加える。
- スタイライズ生成: 選択した参照画像のスタイルでビデオを作成。
研究者たちは、「当社の手法は、テキストからビデオへの生成結果の最先端を示し、画像からビデオ、ビデオインペインティング、スタイライズ生成など多様なコンテンツ作成タスクを支援します」と述べています。
性能と手法
同様の能力を持つモデルは業界にも存在しますが、著者たちは現行モデルが時間的一貫性に苦しむことが多いと指摘しています。一般的には、基本モデルがキーフレームを生成し、その後時間的スーパー解像モデルがギャップを埋めますが、これがビデオの長さや動きのリアリズムに制限を与えます。
ルミエールは、単一のパスでビデオの全時間軸を生成する「スペースタイムU-Net」アーキテクチャを使用し、リアリズムと一貫性を向上させています。「空間と時間のダウンサンプリングおよびアップサンプリングを活用し、事前にトレーニングされたテキストから画像への拡散モデルを基にして、当社の手法は複数の時空間スケールで処理することで、フルフレームレートの低解像度ビデオを生成することを学びました」と研究者たちは述べています。
3000万本のビデオとそれに対応するテキストキャプションでトレーニングされたルミエールは、16fpsで80フレームを生成可能ですが、データセットの出所は不明です。
他のAIビデオモデルとの比較
Pika、Runway、Stability AIのモデルとのテストでは、これらの競合が高いフレームごとの視覚品質を達成した一方で、短い4秒の出力は動的な動きに欠け、ほぼ静的なクリップになってしまうことが指摘されました。ImagenVideoも動きの質が限られていました。
「対照的に、当社の手法は、時間的一貫性と全体の品質を保ちながら、より大きな動きのマグニチュードを持つ5秒のビデオを生成します」と研究者たちは報告しています。ユーザー調査では、テキストや画像からビデオへの生成について、ルミエールを他のモデルより好む傾向が見られました。
ルミエールはAIビデオ分野での有望な進展を示していますが、現時点ではテスト利用が可能ではないことにも注意が必要です。研究者たちは、複数ショットやシームレスなシーン転換を生成することができないという制約も認めており、これは今後の探求課題として挙げられています。