微軟推出VASA-1：一個使人類頭像生動起來的新AI框架，透過聲音和歌曲實現動態表現。

Home AI新聞微軟推出VASA-1：一個使人類頭像生動起來的新AI框架，透過聲音和歌曲實現動態表現。

微軟在人工智慧驅動的內容生成方面取得了顯著進展，推出了VASA-1這一突破性框架，可以將靜態的人類頭像轉換為動態的講話和唱歌視頻。這一項目標誌著AI生成內容的一次顯著轉變，只需最少的輸入：一張靜態圖片和一個音頻文件。VASA-1為這些圖像賦予生命，實現真實的口型同步、表情和頭部動作。

AI代理的焦點

微軟展示了VASA-1的多種能力範例，包括引人注目的蒙娜麗莎饒舌表演。然而，該公司也承認深度偽造技術的潛在風險。他們澄清VASA-1目前仍屬於研究演示階段，暫無商業化計劃。

為靜態圖像賦予生命

當前的AI視頻內容工具既能帶來正面效果，也可以被濫用來製作有害的深度偽造。這項技術的積極用途也值得關注，例如藝術家可能同意創建其數字形象以用於宣傳。VASA-1在這一微妙的界線上游走，通過「生成虛擬角色的逼真講話面孔」，並增強視覺情感技能（VAS）。

根據微軟的說法，該模型可以將一個人的靜態圖像和語音音頻文件結合，生成一段視頻，實現口型與音頻的同步，並表現多種情感、面部細微差異和自然的頭部動作。公司提供了範例，展示如何將單一的頭像轉變為個體講話或唱歌的視頻。

「核心創新包括一個運作於面部潛在空間的整體臉部動態及頭部運動生成模型，以及利用視頻創建表達性且具解耦特徵的臉部潛在空間，」研究人員在公司網站上解釋道。

用戶對AI生成的控制

VASA-1為用戶提供了對生成內容的精細控制，允許通過簡單的滑桿調整動作序列、眼睛方向、頭部位置和情感表達。它還可以處理各類內容，包括藝術圖像、唱歌音頻及非英語語音。

未來的VASA實施

儘管微軟的樣本看起來真實，但一些片段顯示出其AI生成的特徵，動作缺乏流暢性。該方法在離線批處理中生成512 x 512像素的視頻，支持每秒45幀的幀率，並在在線串流中支持每秒40幀。微軟聲稱VASA-1在廣泛測試和新指標的基礎上表現優於現有的方法。

然而，我們必須認識到濫用的潛在風險，包括對個人的誤導，因此微軟選擇不將VASA-1作為商業產品或API發布。該公司強調，所有在演示片段中使用的頭像均為AI生成，該技術主要旨在為虛擬AI化身創造積極的視覺情感技能，而非欺騙性內容。

展望未來，微軟預見VASA-1將為模擬人類動作和情感的逼真化身鋪平道路。這一進展有望促進教育公平，改善溝通障礙者的可及性，並為有需要的人士提供陪伴或治療支持。

Meta推出Megalodon大型語言模型，挑戰Transformer架構

Llama 3正式上市，Meta推出全新獨立AI聊天機器人

Most people like

WindyBot

165.4K

在當今的數位環境中，引人注目的視覺效果對於吸引注意力和傳達品牌信息至關重要。隨著科技的進步，專業影像增強的人工智慧工具已成為提升和完善攝影作品的強大資源。這些創新的解決方案使用戶能夠輕鬆調整光線、顏色和細節，確保每張圖片都能脫穎而出。無論您是攝影師、市場營銷人員，還是內容創作者，利用人工智慧進行影像增強都能顯著提升視覺內容的質量，更有效地吸引觀眾。

AI 圖像工具 AI Avatar Generator

Gamma.AI

193K

介紹Gamma.AI：一款先進的人工智慧解決方案，旨在監控員工活動並即時提醒您安全錯誤。借助其尖端技術，Gamma.AI幫助保護您的組織，確保合規性並降低風險。

人工智慧驅動 Other

Jamboss

8.3K

探索一款專為創作和分享獨特個性化歌曲而設計的AI音樂生成器的強大功能。體驗無縫釋放創意的方式，輕鬆製作自定義音樂曲目。

AI 音樂生成器 AI Music Generator

16x Prompt

38K

介紹一個專為程式編碼提示設計的精簡平台。這個使用者友好的工具提升您的編碼體驗，提供一個有序的空間來探索、創建和分享提示，讓您比以往更容易找到靈感並提高程式設計技能。加入我們的社群，今天就釋放您的編碼潛力！

編碼提示 Prompt

Find AI tools in YBX