Googleが発表した「ルミエール」：リアルなAI動画を生成する時空拡散モデル

Home AIニュース Googleが発表した「ルミエール」：リアルなAI動画を生成する時空拡散モデル

企業が生成AIの可能性を活用する中で、より高度なソリューションの開発が加速しています。その中で注目すべきなのが、Google、ワイズマン科学研究所、テルアビブ大学の研究者によって開発された「ルミエール」という時空間拡散モデルです。この技術は、リアルなビデオ生成を向上させることを目的としています。

最新の論文ではルミエールの革新的な技術が説明されていますが、一般公開はまだ行われていません。公開されると、Googleは現在Runway、Pika、Stability AIが主導するAIビデオ市場において強力な競合となる可能性があります。

ルミエールの機能とは？

「光」を意味するルミエールは、リアルでスタイライズされたビデオを生成するための拡散モデルです。ユーザーは自然言語でテキストを入力することで、プロンプトに基づくビデオを作成できます。また、静止画像をアップロードし、それにテキストプロンプトを適用することで動的なビデオに変換することも可能です。主な機能には以下のものがあります：

- インペインティング: テキストコマンドに基づいて特定のオブジェクトを挿入。

- シネマグラフ: シーンの一部に動きを加える。

- スタイライズ生成: 選択した参照画像のスタイルでビデオを作成。

研究者たちは、「当社の手法は、テキストからビデオへの生成結果の最先端を示し、画像からビデオ、ビデオインペインティング、スタイライズ生成など多様なコンテンツ作成タスクを支援します」と述べています。

性能と手法

同様の能力を持つモデルは業界にも存在しますが、著者たちは現行モデルが時間的一貫性に苦しむことが多いと指摘しています。一般的には、基本モデルがキーフレームを生成し、その後時間的スーパー解像モデルがギャップを埋めますが、これがビデオの長さや動きのリアリズムに制限を与えます。

ルミエールは、単一のパスでビデオの全時間軸を生成する「スペースタイムU-Net」アーキテクチャを使用し、リアリズムと一貫性を向上させています。「空間と時間のダウンサンプリングおよびアップサンプリングを活用し、事前にトレーニングされたテキストから画像への拡散モデルを基にして、当社の手法は複数の時空間スケールで処理することで、フルフレームレートの低解像度ビデオを生成することを学びました」と研究者たちは述べています。

3000万本のビデオとそれに対応するテキストキャプションでトレーニングされたルミエールは、16fpsで80フレームを生成可能ですが、データセットの出所は不明です。

他のAIビデオモデルとの比較

Pika、Runway、Stability AIのモデルとのテストでは、これらの競合が高いフレームごとの視覚品質を達成した一方で、短い4秒の出力は動的な動きに欠け、ほぼ静的なクリップになってしまうことが指摘されました。ImagenVideoも動きの質が限られていました。

「対照的に、当社の手法は、時間的一貫性と全体の品質を保ちながら、より大きな動きのマグニチュードを持つ5秒のビデオを生成します」と研究者たちは報告しています。ユーザー調査では、テキストや画像からビデオへの生成について、ルミエールを他のモデルより好む傾向が見られました。

ルミエールはAIビデオ分野での有望な進展を示していますが、現時点ではテスト利用が可能ではないことにも注意が必要です。研究者たちは、複数ショットやシームレスなシーン転換を生成することができないという制約も認めており、これは今後の探求課題として挙げられています。

イェの「ハゲワシ」から「トゥルー・ディテクティブ」まで：AIがポップカルチャートレンドを形成する方法

AI画像生成の新時代：ディープフェイクの急増に備えよ（LoRAは時代遅れか？）

Most people like

Deep Swapper

1.4M

究極の無料AI顔差し替えツールで、シームレスで高品質な顔入れ替えを体験してください。画像を手軽に変換し、この革新的な技術でコンテンツを引き立てましょう！

AI Image to Image

Immersive Translate

2.5M

無料の二言語ウェブページおよび文書翻訳ツールをご紹介します。翻訳を簡単にアクセスできるものにします。ウェブサイトのコンテンツや重要な文書を変換する必要がある場合でも、直感的なプラットフォームが複数の言語で明確なコミュニケーションを実現し、グローバルな観客とシームレスに繋がることを可能にします。手軽に翻訳し、今日からオンラインプレゼンスを向上させましょう！

翻訳 Translate

Translate.Video

234.3K

Translate.Videoは、動画を75以上の言語に翻訳する専門プラットフォームであり、グローバルなコミュニケーションやコンテンツ制作に欠かせないツールです。

動画翻訳 Translate

Voilà

194.7K

Voilàをご紹介します。生産性を向上させ、バーチャルアシスタンスを強化するための究極のAIブラウザアシスタントです。オンラインタスクを高め、ワークフローを効率化するシームレスなサポートを体験してください。

ChatGPT AIアシスタント Writing Assistants

Find AI tools in YBX