阿里巴巴的創新人工智慧系統「EMO」能夠從您的照片生成逼真的對話和唱歌影片

阿里巴巴智能計算研究院的研究人員推出了一款創新的人工智慧系統「EMO」(Emote Portrait Alive),能夠將單一人像照片動畫化,製作出具有生命力的視頻,展示個體的對話或歌唱。

根據發表在 arXiv 的研究論文,EMO 能生成流暢且富有表情的面部動作和頭部姿勢,與提供的音頻曲線密切對齊。這一突破標誌著音頻驅動的對話視頻生成技術的一個重要進展,這一領域多年來對人工智慧研究者來說一直充滿挑戰。

“傳統技術常常難以捕捉到人類表情的全貌以及個體面部風格的獨特性,”主筆林瑞天表示。“為了克服這些挑戰,我們提出了 EMO,這是一個新穎的框架,采用直接的音頻到視頻合成方法,無需 3D 模型或面部特徵點。”

直接音頻到視頻轉換

EMO 系統利用擴散模型,這是一種以生成真實合成影像著稱的強大 AI 技術。研究人員利用超過 250 小時的演講、電影、電視節目和音樂表演的對話視頻數據集來訓練 EMO。

與依賴 3D 面部模型或混合形狀的早期方法不同,EMO 直接將音頻波形轉換為視頻幀。這一能力使其能夠捕捉與自然語言交談相關的細微動作和獨特特徵。

卓越的視頻質量和表現力

研究結果顯示,EMO 在視頻質量、身份保持和表達力方面顯著超越了現有的最先進技術。一項用戶研究表明,EMO 生成的視頻被認為比競爭系統的視頻更自然、更具情感表達。

真實的唱歌動畫

除了對話視頻外,EMO 還能將唱歌的人像動畫化,製造準確的嘴型和富有表情的面部特徵,與聲音表演同步。系統可以根據輸入音頻的時長生成任意長度的視頻。

“實驗結果顯示,EMO 不僅能生成令人信服的對話視頻,還能創造多種風格的唱歌動畫,表現力和真實性大大超過現有方法,”研究指出。

EMO 的發展預示著未來可輕易從單一照片和音頻片段合成個性化視頻內容。然而,針對可能將此技術用於冒名頂替或虛假信息的倫理擔憂仍然存在。研究人員承諾將探索合成視頻的檢測方法,以解決這些問題。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles