阿里巴巴创新AI系统“EMO”:从你的照片生成真实的对话和唱歌视频

阿里巴巴智能计算研究院的研究人员推出了“EMO”(情感肖像动态),这一创新的人工智能系统能够将单张肖像照片转化为逼真的视频,展现个体的对话或演唱。

根据在arXiv上发布的研究论文,EMO能生成流畅且富有表现力的面部动作和头部姿势,与提供的音轨细微变化紧密契合。这标志着音频驱动的人物视频生成领域取得了重要进展,这一直是AI研究人员多年来面临的挑战。

首席作者田林睿表示:“传统技术难以捕捉人类表情的全谱以及个体面部风格的独特性。为了解决这些问题,我们提出了EMO,这一新颖框架采用了直接的音频到视频合成方法,省去了3D模型或面部关键点的需求。”

直接音频转视频转换

EMO系统利用扩散模型,这是一种因为能够生成逼真合成图像而被广泛应用的强大AI技术。研究人员在一个包含超过250小时讲话视频的数据集上训练了EMO,这些视频来源于演讲、电影、电视节目和音乐表演。

与早期依赖于3D面部模型或混合形状的方法不同,EMO直接将音频波形转换为视频帧。这一能力使其能够捕捉与自然语音相关的细微动作和独特特征。

优越的视频质量与表现力

研究结果显示,EMO在视频质量、身份保持和表现力方面显著优于现有的最先进方法。一项用户研究表明,EMO生成的视频被认为比竞争系统制作的更自然和富有情感。

逼真的唱歌动画

除了对话视频,EMO还可以为唱歌的肖像动画,创建精准的嘴型和富有表现力的面部特征,使其与声乐表演同步。该系统能够生成任意长度的视频,具体取决于输入音频的时长。

“实验结果表明,EMO不仅可以生成令人信服的对话视频,还能在各种风格中制作唱歌动画,远超现有方法在表现力和真实感上的表现,”研究指出。

EMO所引入的发展暗示着,未来可以非常简单地根据单张照片和音频剪辑合成个性化视频内容。然而,关于这种技术在冒充或传播错误信息方面的潜在滥用,依然存在伦理担忧。研究人员致力于探索合成视频的检测方法,以解决这些问题。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles