微軟在人工智慧驅動的內容生成方面取得了顯著進展,推出了VASA-1這一突破性框架,可以將靜態的人類頭像轉換為動態的講話和唱歌視頻。這一項目標誌著AI生成內容的一次顯著轉變,只需最少的輸入:一張靜態圖片和一個音頻文件。VASA-1為這些圖像賦予生命,實現真實的口型同步、表情和頭部動作。
AI代理的焦點
微軟展示了VASA-1的多種能力範例,包括引人注目的蒙娜麗莎饒舌表演。然而,該公司也承認深度偽造技術的潛在風險。他們澄清VASA-1目前仍屬於研究演示階段,暫無商業化計劃。
為靜態圖像賦予生命
當前的AI視頻內容工具既能帶來正面效果,也可以被濫用來製作有害的深度偽造。這項技術的積極用途也值得關注,例如藝術家可能同意創建其數字形象以用於宣傳。VASA-1在這一微妙的界線上游走,通過「生成虛擬角色的逼真講話面孔」,並增強視覺情感技能(VAS)。
根據微軟的說法,該模型可以將一個人的靜態圖像和語音音頻文件結合,生成一段視頻,實現口型與音頻的同步,並表現多種情感、面部細微差異和自然的頭部動作。公司提供了範例,展示如何將單一的頭像轉變為個體講話或唱歌的視頻。
「核心創新包括一個運作於面部潛在空間的整體臉部動態及頭部運動生成模型,以及利用視頻創建表達性且具解耦特徵的臉部潛在空間,」研究人員在公司網站上解釋道。
用戶對AI生成的控制
VASA-1為用戶提供了對生成內容的精細控制,允許通過簡單的滑桿調整動作序列、眼睛方向、頭部位置和情感表達。它還可以處理各類內容,包括藝術圖像、唱歌音頻及非英語語音。
未來的VASA實施
儘管微軟的樣本看起來真實,但一些片段顯示出其AI生成的特徵,動作缺乏流暢性。該方法在離線批處理中生成512 x 512像素的視頻,支持每秒45幀的幀率,並在在線串流中支持每秒40幀。微軟聲稱VASA-1在廣泛測試和新指標的基礎上表現優於現有的方法。
然而,我們必須認識到濫用的潛在風險,包括對個人的誤導,因此微軟選擇不將VASA-1作為商業產品或API發布。該公司強調,所有在演示片段中使用的頭像均為AI生成,該技術主要旨在為虛擬AI化身創造積極的視覺情感技能,而非欺騙性內容。
展望未來,微軟預見VASA-1將為模擬人類動作和情感的逼真化身鋪平道路。這一進展有望促進教育公平,改善溝通障礙者的可及性,並為有需要的人士提供陪伴或治療支持。