アリババの革新的AIシステム「EMO」があなたの写真からリアルなトークと歌の動画を生成

Home AIニュースアリババの革新的AIシステム「EMO」があなたの写真からリアルなトークと歌の動画を生成

アリババのインテリジェントコンピューティング研究所の研究者たちは、「EMO（Emote Portrait Alive）」という新しいAIシステムを発表しました。このシステムは、単一の肖像写真をアニメーション化し、個人が話したり歌ったりするリアルな動画を生成することができます。

arXivで発表された研究論文によれば、EMOは提供された音声トラックに合わせて流れるような表情や頭の動きを生成します。この技術は、AI研究者にとって長年の課題であった音声駆動型のトーキングヘッド動画生成において、重要な進歩を示しています。

「従来の技術は、人間の表情の幅広いスペクトルや個々の顔のスタイルを捉えるのが難しい」と、主著者のリンルイ・ティアンは説明しています。「この課題を克服するために、3Dモデルや顔のランドマークを必要としない新しいフレームワークEMOを提案します。音声から直接映像を合成するアプローチを採用しています。」

音声から映像への直接変換

EMOシステムは、リアルな合成画像を生成できる強力なAI技術である拡散モデルを活用しています。研究者たちは、スピーチ、映画、テレビ番組、音楽パフォーマンスから得られた250時間以上のトーキングヘッド動画のデータセットをもとにEMOをトレーニングしました。

従来の方法が3D顔モデルやブレンドシェイプに依存しているのに対し、EMOは音声波形を直接動画フレームに変換します。この能力により、自然なスピーチに伴う微妙な動きや特徴を捉えることが可能になります。

優れた動画品質と表現力

研究結果によれば、EMOは動画品質、アイデンティティの維持、表現力において最先端の既存手法を大幅に上回ることが示されています。ユーザー調査では、EMOが生成した動画が競合システムによるものよりも自然で感情豊かであると評価されました。

リアルな歌唱アニメーション

会話動画に加えて、EMOは歌う肖像もアニメーション化でき、音声パフォーマンスに合わせて正確な口形や表情を生成します。このシステムは、入力音声の長さに基づいて任意の長さの動画を作成できます。

「実験結果は、EMOが説得力のある話す動画だけでなく、様々なスタイルの歌うアニメーションも生成できることを示しており、既存の方法論を大きく超える表現力とリアリズムを実現しています」と述べられています。

EMOによって導入された技術の進展は、たった一枚の写真と音声クリップから個別化された動画コンテンツが簡単に合成できる未来を示唆しています。しかし、模倣や誤情報に対する潜在的な悪用に関する倫理的な懸念も懸念されています。研究者たちは、これらの問題に対処するために合成動画の検出方法を探索することに取り組んでいます。

オープンソースが企業のセキュリティを変革する方法：スタートアップFiligranが推進する協力的脅威防御の最前線を探る

Slice、企業の株式分配と追跡を簡素化することを目指す

Most people like

Deep English

193.3K

魅力的で刺激的なレッスンで、リスニングスキルを向上させ、スピーキング能力を高めましょう。

英語を学ぶ AI Course

DiffusionBee

73.4K

DiffusionBeeは、AI生成アートの作成と強化のために設計された、使いやすい無料のオフラインアプリケーションです。

AIアート AI Art Generator

DaVinci AI Art Generator

ダヴィンチ、アル・アート・ジェネレーター。

AIアートジェネレーター AI Art Generator

Baked Studio

37.7K

あなたのスタートアップは、卓越したデザインでブランドを高めたいと考えていますか？デザインサブスクリプションは、進化するニーズに合わせたプロフェッショナルなクリエイティブサービスへの継続的なアクセスを提供します。この革新的なアプローチは、時間とコストを節約するだけでなく、今日の急速に変化する市場でブランドの新鮮さと競争力を維持することを保証します。デザインサブスクリプションが、視覚的にオーディエンスを魅了し、成長を促進するために必要なゲームチェンジャーである理由を発見してください。

製品デザイン Design Assistant

Find AI tools in YBX