Microsoft、VASA-1を発表：声と歌で人間のヘッドショットを生き生きと蘇らせるAIフレームワーク

Home AIニュース Microsoft、VASA-1を発表：声と歌で人間のヘッドショットを生き生きと蘇らせるAIフレームワーク

Microsoftは、静止した人の写真を動的なトークや歌のビデオに変える革新的なフレームワーク「VASA-1」を発表し、AIによるコンテンツ生成分野で大きな進展を遂げました。このプロジェクトは、静止画像と音声ファイルのわずかな入力で機能し、AIがこれらの画像に命を吹き込み、リアルな口の動きや表情、頭の動きを実現します。

AIエージェントのフォーカス

Microsoftは、VASA-1の能力を示すさまざまな例を披露し、その中にはモナリザがラップをする印象的な演出も含まれています。しかし、同社はディープフェイク技術の潜在的なリスクについても認識しており、VASA-1は現在、商業化の計画がなく研究デモとして位置づけられています。

静止画像の活用

現代のAIツールは動画コンテンツにおいて役立つ目的と悪用される危険性の両方を持っています。魅力的な広告を作ることができる一方で、有害なディープフェイクの作成に悪用されることもあります。しかし、アーティストが自分のデジタル肖像の作成に同意することで、ポジティブな面も存在します。VASA-1は、「仮想キャラクターのリアルなトーク顔を生成」し、視覚的情動スキル（VAS）を強化することで、この微妙なバランスを保っています。

Microsoftによると、このモデルは人の静止画像と音声ファイルをもとに、音声に合わせたリップシンクを行い、さまざまな感情、顔の細かな表情、自然な頭の動きを含む動画を生成します。同社は、1枚の頭shotがその人が話したり歌ったりするビデオに変わる様子を示す例を提供しました。

「核心となるイノベーションは、顔の動的生成モデルと頭の動きを同時に生成するモデルであり、顔の潜在空間において機能します。さらに、動画を用いて表現豊かで分離された顔の潜在空間を作り出すことです」と、研究者たちは企業のウェブサイトで説明しています。

AI生成のユーザーコントロール

VASA-1は、生成されるコンテンツに対するユーザーの細かなコントロールを実現しており、動きのシーケンス、目の方向、頭の位置、感情表現などを簡単なスライダーで調整できます。また、アート画像、歌音声、非英語のスピーチなど、さまざまなコンテンツに対応することができます。

VASAの将来

Microsoftが提供するサンプルはリアルに見えるものの、一部のクリップでは動きに流動性が欠けていることが明らかです。このアプローチは512 x 512ピクセルで最大45フレーム毎秒という動画を生成し、オンラインでのストリーミングでは40フレーム毎秒をサポートします。Microsoftは、VASA-1が新しいメトリクスによる広範なテストの結果、既存の手法よりも優れていると主張しています。

ただし、個人の誤った表現を生む可能性があるため、VASA-1を商業製品やAPIとして公開しないことが重要です。同社は、デモクリップに使用されたすべての頭shotがAI生成であり、この技術は主に仮想AIアバターのためのポジティブな視覚情動スキルを創造することを目的としていると強調しています。

長期的には、MicrosoftはVASA-1が人間の動きや感情を再現するリアルなアバターの道を開くと考えています。この進展は、教育の平等性を高め、コミュニケーションに課題を抱える人々のアクセシビリティを向上させ、支援が必要な個人に対する伴侶や治療的サポートを提供する可能性があります。

Meta、Megalodon LLMを発表 - トランスフォーマーアーキテクチャの革新を目指す

Metaの新しいスタンドアロンAIチャットボット「Llama 3」が登場！

Most people like

Creator Tools Translator

18K

YouTube Studioでキャプションや説明文を140を超える言語に簡単に翻訳し、時間を節約しながら動画のグローバルリーチを大幅に拡大します。

YouTubeローカリゼーション AI YouTube Assistant

PlagiarismCheck

236.4K

教育者と学生のために特別に設計された信頼性の高い盗用チェックツールを発見してください。この強力なツールは、あなたの作品の整合性を保ち、迅速かつ正確に潜在的な盗用を特定します。学業成功に欠かせないリソースです。

剽窃チェッカー AI Plagiarism Checker

Thatch

204.5K

世界中の地元のプロフェッショナルによる厳選された旅行ガイドやパーソナライズされたプランニングサービスをお楽しみください。私たちの知識豊富なチームが、インサイダー情報やカスタマイズされたおすすめであなたの旅行体験を向上させます。

旅行ガイド AI Trip Planner

Casetext

5.3M

Casetextは、法律専門家向けに特別に設計された高度なAI法務アシスタントを作成しました。この革新的なツールは法的リサーチを効率化し、弁護士がクライアントにより良い成果を提供できるように支援します。

法務AI Legal Assistant

Find AI tools in YBX