阿里巴巴的創新人工智慧系統「EMO」能夠從您的照片生成逼真的對話和唱歌影片

Home AI新聞阿里巴巴的創新人工智慧系統「EMO」能夠從您的照片生成逼真的對話和唱歌影片

阿里巴巴智能計算研究院的研究人員推出了一款創新的人工智慧系統「EMO」（Emote Portrait Alive），能夠將單一人像照片動畫化，製作出具有生命力的視頻，展示個體的對話或歌唱。

根據發表在 arXiv 的研究論文，EMO 能生成流暢且富有表情的面部動作和頭部姿勢，與提供的音頻曲線密切對齊。這一突破標誌著音頻驅動的對話視頻生成技術的一個重要進展，這一領域多年來對人工智慧研究者來說一直充滿挑戰。

“傳統技術常常難以捕捉到人類表情的全貌以及個體面部風格的獨特性，”主筆林瑞天表示。“為了克服這些挑戰，我們提出了 EMO，這是一個新穎的框架，采用直接的音頻到視頻合成方法，無需 3D 模型或面部特徵點。”

直接音頻到視頻轉換

EMO 系統利用擴散模型，這是一種以生成真實合成影像著稱的強大 AI 技術。研究人員利用超過 250 小時的演講、電影、電視節目和音樂表演的對話視頻數據集來訓練 EMO。

與依賴 3D 面部模型或混合形狀的早期方法不同，EMO 直接將音頻波形轉換為視頻幀。這一能力使其能夠捕捉與自然語言交談相關的細微動作和獨特特徵。

卓越的視頻質量和表現力

研究結果顯示，EMO 在視頻質量、身份保持和表達力方面顯著超越了現有的最先進技術。一項用戶研究表明，EMO 生成的視頻被認為比競爭系統的視頻更自然、更具情感表達。

真實的唱歌動畫

除了對話視頻外，EMO 還能將唱歌的人像動畫化，製造準確的嘴型和富有表情的面部特徵，與聲音表演同步。系統可以根據輸入音頻的時長生成任意長度的視頻。

“實驗結果顯示，EMO 不僅能生成令人信服的對話視頻，還能創造多種風格的唱歌動畫，表現力和真實性大大超過現有方法，”研究指出。

EMO 的發展預示著未來可輕易從單一照片和音頻片段合成個性化視頻內容。然而，針對可能將此技術用於冒名頂替或虛假信息的倫理擔憂仍然存在。研究人員承諾將探索合成視頻的檢測方法，以解決這些問題。

97K

解鎖AI驅動聊天機器人的潛力，以創造量身定制的解決方案，從您的文檔中產生引人入勝的內容，並提升您的支持體驗。探索自訂聊天機器人如何轉變您的流程並增強用戶互動。

自訂聊天機器人 AI Chatbot

162.5K

透過運用人工智慧和自動化解決方案來提升您的客戶支持。了解這些技術如何簡化流程、改善回應時間並提升客戶滿意度。

客戶支持 AI Product Description Generator

814.9K

我們在地球觀測領域引領革命，成為全球人工智慧驅動衛星影像分析的領導者。最先進的技術將原始衛星數據轉化為有意義的洞察，幫助企業和組織做出明智的決策。探索我們的創新解決方案如何提升您對地球的理解，優化資源，並推動可持續增長。

人工智慧驅動的分析工具 Other

Mathos AI：具有逐步學習支援的 AI 數學解算器。

數學計算器 Homework Helper

Find AI tools in YBX