Metaは、アップグレードされた画像生成基盤モデル「Emu(Expressive Media Universe)」のローンチを通じて、生成AIの分野で大きな進展を遂げました。この強力なモデルは、テキストからの動画生成機能を新たに搭載し、画像編集の精度も向上しました。
Emuの技術は、9月のMeta Connectイベントで初めて紹介され、Metaのソーシャルメディアプラットフォーム全体で様々な動的な生成AI体験を提供する基盤となっています。例えば、Instagramの画像編集ツールでは、ユーザーが写真の視覚スタイルや背景をシームレスに変更できるようになりました。また、Emuは、OpenAIのChatGPTに似た新しいユーザーアシスタントプラットフォーム「Meta AI」に統合されています。
新しい「Emu Video」モデルは、自然言語のテキスト、画像、またはその両方に基づいて動画を生成することができる点で際立っています。従来のMake-a-Videoのように5つの拡散モデルに依存するのではなく、Emu Videoは2つのモデルのみを使用するより効率的なアプローチを採用しています。このプロセスは大きく2つのステップから成り立っており、まずテキストプロンプトに基づいて画像を生成し、その後、テキストと画像のプロンプトに従って動画を作成します。このシンプルな方法論により、動画生成モデルの効率的なトレーニングが可能となります。ユーザー調査では、Emu VideoがMake-a-Videoを上回り、参加者の96%がそのクオリティを好み、85%が自分のテキストプロンプトにより忠実であると答えました。さらに、Emu Videoはユーザーがアップロードした画像を命令に従ってアニメーション化することもできます。
また、「Emu Edit」の導入も注目すべきアップデートです。これにより、自然言語での指示を用いて画像編集が可能になります。ユーザーは画像をアップロードし、見たい変更を指定できます。例えば、プードルを取り除き、赤いベンチに置き換えるようにつぶやくかのようにリクエストできます。既存のAI駆動の画像変更ツール、例えばStable Diffusionを利用したClipDropやRunwayの画像編集機能もありますが、Metaの研究者たちは、既存の手法が過度の変形や編集タスクでのパフォーマンス不足を引き起こすことが多いと指摘しています。
Metaはブログ投稿で、「信じられる」画像の生成だけでなく、ユーザーの具体的なリクエストに関連するピクセルを正確に修正することに焦点を当てるべきだと強調しました。研究チームは、コンピュータビジョンタスクを画像生成モデルの指示として統合することで、編集プロセスにおいて unparalleledなコントロールが得られることに気づきました。
Emu Editの開発には、1000万枚の合成画像からなる包括的なデータセットが使用されており、各画像は入力画像、詳細なタスク説明、およびターゲットとなる出力画像で構成されています。これにより、モデルはユーザーの指示に忠実に従いつつ、元の画像内の無関係な要素の完全性を保つことができます。
Emu Editの機能を探求したい方は、Hugging Faceで生成された画像を確認できます。また、Metaは、新しい画像編集モデルのテストを促進するための基準である「Emu Edit Test Set」を導入しました。このセットには、背景の変更やオブジェクトの除去など、7つの異なる画像編集タスクが含まれており、正確な画像編集技術の進展に寄与しています。