Googleの新しいマルチモーダルAI動画クリエイター「VideoPoet」を発見しよう！

Home AIニュース Googleの新しいマルチモーダルAI動画クリエイター「VideoPoet」を発見しよう！

昨日、私はGoogleが初めての試みでAI製品を成功裏に立ち上げるかどうかを考えていました。そして、VideoPoetの発表を受けて、その答えが出たようです。

今週、GoogleはVideoPoetを発表しました。これは、Google Researchの31人の研究者によって開発された画期的な大規模言語モデル（LLM）で、さまざまな動画生成タスクに対応することを目指しています。このLLMの開発は特に注目に値します。チームの事前レビューリサーチペーパーによると、「既存の多くのモデルは、動画生成において優れたパフォーマンスを発揮する拡散ベースの手法を使用しています。通常、これらのモデルは、Stable Diffusionのような事前トレーニングされた画像モデルを使用して高精度な画像を各フレームに生成し、フレーム間の時間的一貫性を高めるために微調整します。」

これに対し、Googleの研究チームは、テキストやコード生成で一般的に使用されるトランスフォーマーアーキテクチャに基づくLLMを選択しました（例：ChatGPT、Claude 2、Llama 2）。ただし、VideoPoetは動画生成専用にトレーニングされています。

プレトレーニングの重要性

VideoPoetの成功は、公共のインターネットなどから収集した2億7000万本の動画と10億以上のテキスト・画像ペアに基づく広範なプレトレーニングに起因します。このデータは、モデルが利用できるテキストエンベディング、視覚トークン、音声トークンに変換されました。特に、RunwayやGoogleが投資しているPikaなどの高度な消費者向け動画生成ツールと比較すると、その結果は驚異的です。

より長く高品質なクリップと改善された動き

Google Researchによれば、LLMに基づくアプローチにより、現在の拡散ベースの動画生成AIが直面する限界に対処し、より長く高品質なクリップを生成することが可能になっています。これらのAIは、長いシーケンスの一貫した動きの保持に苦労することが多いためです。チームのダン・コンドラチュク氏とデイビッド・ロス氏は、Google Researchのブログで次のように述べています。「動画生成の現在のボトルネックの一つは、一貫した大きな動きを生み出す能力です。多くの主要モデルは小さな動きしか生成できないか、大きな動きを試みると目立つアーティファクトを生み出すことがあります。」

しかし、VideoPoetは、最大16フレームの動画全体にわたって大きく一貫した動きを提供できます。また、さまざまなカメラの動きや視覚スタイルを模倣し、ビジュアルコンテンツに寄り添った新しい音声を生成する多様な機能も備えています。重要なのは、それがテキスト、画像、動画といった複数の入力タイプをプロンプトとして処理できる点です。

これらの動画生成機能を一つのLLMに統合することにより、VideoPoetは複数の専門的なツールを不要にし、動画制作のための包括的なソリューションを提供します。

実際、Google Researchチームが行った調査によると、視聴者はVideoPoet生成のクリップを好む傾向があります。人間がSource-1、VideoCrafter、Phenakiといった拡散モデルと並行してクリップを評価したところ、VideoPoetの動画は常に好まれていました。

Google Researchのブログによれば、「平均して、評価者はVideoPoetの例の24～35%を、競合モデルよりもプロンプトに合致していると選びました。一方、他のモデルに対する割合はわずか8～11%でした。また、41～54%のVideoPoetの例が、他のモデルの11～21%よりも興味深い動きを持っていると評価されました。」

縦型動画生成に特化

Google Researchは、VideoPoetをデフォルトで縦型（ポートレート）動画を生成するようにカスタマイズし、SnapchatやTikTokなどのプラットフォームで人気を博しているモバイル動画オーディエンスにアプローチしています。

将来的には、Google ResearchはVideoPoetの機能を拡張し、テキストから音声、音声から動画への「何でも生成」タスクをサポートすることを目指しています。これにより、動画と音声生成の可能性がさらに高まります。

現在、VideoPoetは一般公開されておらず、Googleからのリリース情報を待っています。それまでの間、このツールが市場の他のツールとどのように対抗するのか、期待が高まります。

ミッドジャーニーV6の新機能：向上したプロンプトと画像内テキストの特徴を発表！

Most people like

QuizRise.com

49K

AI技術を活用して、魅力的なクイズを簡単にデザインし、配布できます。

クイズ生成 AI Quizzes

Tipsy Chat

334.7K

想像力あふれるAIタバーンへようこそ！ここは、創造性と技術が出会うユニークなデジタル空間です。この革新的なプラットフォームでは、ダイナミックな物語と魅力的な会話を通じて、人工知能の無限の可能性を探求することができます。あなたのアイデアや想像力が生き生きとした世界に浸る旅に参加してください。人間の創造性と最先端のAI能力を結びつける新しい領域に足を踏み入れましょう。想像力あふれるAIタバーンでインタラクティブな体験の未来を感じてください！

想像力 AI Character

MidGenAI

68.1K

AI技術を活用して、テキストを美しいビジュアル作品に変換し、コンテンツ戦略を向上させましょう。

AI画像生成器 AI Photo & Image Generator

Audimee

255K

あなたの声の力を解き放つ、洗練された音声変換ツールをご紹介します。ミュージシャン、ポッドキャスター、コンテンツクリエイター向けに設計されたこの革新的なテクノロジーは、あなたのボーカルパフォーマンスを向上させ、音声を簡単に修正・強化することを可能にします。制限にさよならを告げ、サウンドの無限の可能性を迎え入れましょう。私たちのツールが、あなたの聴衆を魅了するプロフェッショナルな品質の結果を達成する手助けをする方法を発見してください！

ボイストランスフォーメーションツール Voice & Audio Editing

Find AI tools in YBX