今年のGoogle I/Oカンファレンスで、Googleは最新のAIメディア制作エンジン、VeoとImagen 3を発表しました。Veoは高品質な1080p動画を生成でき、Imagen 3はテキストから画像を生成するための最新フレームワークです。これらの製品が業界に革新をもたらすかどうかは不明ですが、GoogleはOpenAIのSoraビデオモデルやDALL-E 3に対する競争力を維持するための重要な一手となっています。
Googleによると、Veoは「自然言語と視覚的セマンティクスを深く理解」しており、ユーザーの説明に基づいて1分以上の動画を生成することが可能です。また、映画制作や視覚技術に関連する概念、例えばタイムラプス撮影などを理解しており、これらはAI動画生成モデルにとって必須の機能となっています。
Veoの機能を示すために、Googleはドナルド・グローバーと彼のクリエイティブスタジオGilgaと協力し、テキスト説明に基づいて生成されたオープンカーのロードトリップやセーリングのシーンを含むプロモーションビデオを制作しました。Googleによれば、Veoは現実の物理現象を模擬し、高解像度のビジュアルを生成する点で、従来のモデルを上回っています。グローバーはビデオの中で、「誰もがディレクターになれるべきだ。他者の物語を語ることで理解が深まる」と述べています。
AI生成ビデオが観客に受け入れられるかどうかはまだ不透明ですが、GoogleとOpenAIは自社のツールを積極的に推進しています。Veoは現在、特定のクリエイター向けにGoogleのVideoFXツールで利用可能で、YouTube Shortsなどのプラットフォームでも展開予定です。YouTube Shortsに統合されれば、GoogleはTikTokに対する競争力を大幅に強化することができるでしょう。
Imagen 3について、Googleは、テキストから画像を生成するための「最高品質」モデルであり、「リアルで生き生きとした」画像を生成し、アーティファクトを最小限に抑えると主張しています。それに対する本当の課題はDALL-E 3との比較であり、GoogleはImagen 3がテキストや長いプロンプトの処理でよりスマートであると述べています。
さらに、Googleは音楽アーティストのワイクリフ・ジャンやビョルンと提携し、楽曲やビート制作を支援するための音楽AIサンドボックスツールをテストしています。これまでのところ、紹介されたコンテンツは短いものでしたが、興味深い例がいくつか示されています。
日の出から人間の老化に至るまで、AIはますます賢くなっています。Googleの最新のメディア制作ツールはこの方向に進んでおり、AIへの投資が何十億ドルにも及ぶ中で、Googleは次世代のコンピューティング技術のブレークスルーを先導しようとしています。これらの技術が生活を向上させる潜在能力や、心に響くアートを創造する可能性については、引き続き注目が必要です。