OpenAIが今年初めにSoraの生成AIビデオ作成モデルを発表して以来、そのリアリズムと品質に匹敵する競合はほとんど存在していませんでしたが、ついに新たな競争相手が現れました。
Googleは、年次のI/O開発者会議において、名高いDeepMind部門が開発した新しい生成AIビデオモデル、「Veo」を発表しました。Veoは「高品質の1080pクリップを60秒以上生成可能」と説明されています。DeepMindのXアカウントに投稿された内容によれば、このモデルはフォトリアリズムやシュルレアリズムからアニメーションまで、さまざまな映画スタイルに対応しています。
Googleの製品ページでは、Veoが「すべての人に動画制作を身近にすること」を目指しており、経験豊富な映画製作者、志望のクリエイター、教育者など、さまざまなユーザーに利用されています。Veoはテキストからビデオ、ビデオからビデオ、画像からビデオの変換をサポートしています。
多才なアーティスト、ドナルド・グローバー(別名チャイルディッシュ・ガンビーノ)との提携で、Googleは彼のクリエイティブスタジオ「Gilga」を通じてVeoの新機能をテストしました。DeepMindは、Veoによって生成されたいくつかのビデオをYouTubeやXアカウントに披露し、ネオンの都市、リアルなクラゲ、馬に乗るカウボーイ、宇宙を探索する宇宙船、人間の相互作用などのシーンが含まれていました。これらの結果は簡単なテキストプロンプトから生成され、実写や巧みに制作されたアニメーションを非常にリアルに模倣しています。
GoogleのVPであるエリ・コリンズ氏とシニアリサーチディレクターのダグラス・エック氏によるブログ投稿では、Veoは「前例のない創造的コントロールレベル」を持ち、タイムラプスや空撮などの映画用語をしっかり理解していることが強調されています。
さらに、VeoはAI生成動画やユーザーがアップロードした動画、さらには事前に録画した映像の迅速かつ高品質な編集を可能にします。たとえば、ユーザーが空撮の沿岸線映像にカヤックを追加する編集コマンドを入力すると、Veoはそれを元のビデオにシームレスに実装できます。
Veoはまた、動画フレーム間の一貫性を維持する能力に優れており、Soraを含む他のモデルに見られる不一致部分を克服しています。これは、高度な潜在拡散トランスフォーマーを利用することで実現し、キャラクターやオブジェクトが一貫してリアルに保たれます。
Googleは、トレーニングデータのキャプションを改善し、高品質の圧縮ビデオ表現を利用してVeoのパフォーマンスを向上させました。これにより、全体的なビデオ品質が向上し、生成時間が短縮されます。
Veoによって生成されたすべてのビデオには、Googleのコンテンツ認証ウォーターマーク「SynthID」が埋め込まれ、AI生成であることが確認されています。
Veoは、Generative Query Network(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiereなど、DeepMindの数年にわたる研究の成果です。
現在、Veoは一般には提供されていませんが、OpenAIのSoraモデルに倣い、限られたクリエイターにVideoFXのプライベートプレビューを通じてアクセス可能です。Googleは、将来的にVeoの一部機能をYouTube Shortsや他の製品に統合する計画です。