アリババのインテリジェントコンピューティング研究所の研究者たちは、「EMO(Emote Portrait Alive)」という新しいAIシステムを発表しました。このシステムは、単一の肖像写真をアニメーション化し、個人が話したり歌ったりするリアルな動画を生成することができます。
arXivで発表された研究論文によれば、EMOは提供された音声トラックに合わせて流れるような表情や頭の動きを生成します。この技術は、AI研究者にとって長年の課題であった音声駆動型のトーキングヘッド動画生成において、重要な進歩を示しています。
「従来の技術は、人間の表情の幅広いスペクトルや個々の顔のスタイルを捉えるのが難しい」と、主著者のリンルイ・ティアンは説明しています。「この課題を克服するために、3Dモデルや顔のランドマークを必要としない新しいフレームワークEMOを提案します。音声から直接映像を合成するアプローチを採用しています。」
音声から映像への直接変換
EMOシステムは、リアルな合成画像を生成できる強力なAI技術である拡散モデルを活用しています。研究者たちは、スピーチ、映画、テレビ番組、音楽パフォーマンスから得られた250時間以上のトーキングヘッド動画のデータセットをもとにEMOをトレーニングしました。
従来の方法が3D顔モデルやブレンドシェイプに依存しているのに対し、EMOは音声波形を直接動画フレームに変換します。この能力により、自然なスピーチに伴う微妙な動きや特徴を捉えることが可能になります。
優れた動画品質と表現力
研究結果によれば、EMOは動画品質、アイデンティティの維持、表現力において最先端の既存手法を大幅に上回ることが示されています。ユーザー調査では、EMOが生成した動画が競合システムによるものよりも自然で感情豊かであると評価されました。
リアルな歌唱アニメーション
会話動画に加えて、EMOは歌う肖像もアニメーション化でき、音声パフォーマンスに合わせて正確な口形や表情を生成します。このシステムは、入力音声の長さに基づいて任意の長さの動画を作成できます。
「実験結果は、EMOが説得力のある話す動画だけでなく、様々なスタイルの歌うアニメーションも生成できることを示しており、既存の方法論を大きく超える表現力とリアリズムを実現しています」と述べられています。
EMOによって導入された技術の進展は、たった一枚の写真と音声クリップから個別化された動画コンテンツが簡単に合成できる未来を示唆しています。しかし、模倣や誤情報に対する潜在的な悪用に関する倫理的な懸念も懸念されています。研究者たちは、これらの問題に対処するために合成動画の検出方法を探索することに取り組んでいます。