Microsoftは、静止した人の写真を動的なトークや歌のビデオに変える革新的なフレームワーク「VASA-1」を発表し、AIによるコンテンツ生成分野で大きな進展を遂げました。このプロジェクトは、静止画像と音声ファイルのわずかな入力で機能し、AIがこれらの画像に命を吹き込み、リアルな口の動きや表情、頭の動きを実現します。
AIエージェントのフォーカス
Microsoftは、VASA-1の能力を示すさまざまな例を披露し、その中にはモナリザがラップをする印象的な演出も含まれています。しかし、同社はディープフェイク技術の潜在的なリスクについても認識しており、VASA-1は現在、商業化の計画がなく研究デモとして位置づけられています。
静止画像の活用
現代のAIツールは動画コンテンツにおいて役立つ目的と悪用される危険性の両方を持っています。魅力的な広告を作ることができる一方で、有害なディープフェイクの作成に悪用されることもあります。しかし、アーティストが自分のデジタル肖像の作成に同意することで、ポジティブな面も存在します。VASA-1は、「仮想キャラクターのリアルなトーク顔を生成」し、視覚的情動スキル(VAS)を強化することで、この微妙なバランスを保っています。
Microsoftによると、このモデルは人の静止画像と音声ファイルをもとに、音声に合わせたリップシンクを行い、さまざまな感情、顔の細かな表情、自然な頭の動きを含む動画を生成します。同社は、1枚の頭shotがその人が話したり歌ったりするビデオに変わる様子を示す例を提供しました。
「核心となるイノベーションは、顔の動的生成モデルと頭の動きを同時に生成するモデルであり、顔の潜在空間において機能します。さらに、動画を用いて表現豊かで分離された顔の潜在空間を作り出すことです」と、研究者たちは企業のウェブサイトで説明しています。
AI生成のユーザーコントロール
VASA-1は、生成されるコンテンツに対するユーザーの細かなコントロールを実現しており、動きのシーケンス、目の方向、頭の位置、感情表現などを簡単なスライダーで調整できます。また、アート画像、歌音声、非英語のスピーチなど、さまざまなコンテンツに対応することができます。
VASAの将来
Microsoftが提供するサンプルはリアルに見えるものの、一部のクリップでは動きに流動性が欠けていることが明らかです。このアプローチは512 x 512ピクセルで最大45フレーム毎秒という動画を生成し、オンラインでのストリーミングでは40フレーム毎秒をサポートします。Microsoftは、VASA-1が新しいメトリクスによる広範なテストの結果、既存の手法よりも優れていると主張しています。
ただし、個人の誤った表現を生む可能性があるため、VASA-1を商業製品やAPIとして公開しないことが重要です。同社は、デモクリップに使用されたすべての頭shotがAI生成であり、この技術は主に仮想AIアバターのためのポジティブな視覚情動スキルを創造することを目的としていると強調しています。
長期的には、MicrosoftはVASA-1が人間の動きや感情を再現するリアルなアバターの道を開くと考えています。この進展は、教育の平等性を高め、コミュニケーションに課題を抱える人々のアクセシビリティを向上させ、支援が必要な個人に対する伴侶や治療的サポートを提供する可能性があります。