阿里巴巴创新AI系统“EMO”：从你的照片生成真实的对话和唱歌视频

Home AI News CN 阿里巴巴创新AI系统“EMO”：从你的照片生成真实的对话和唱歌视频

阿里巴巴智能计算研究院的研究人员推出了“EMO”（情感肖像动态），这一创新的人工智能系统能够将单张肖像照片转化为逼真的视频，展现个体的对话或演唱。

根据在arXiv上发布的研究论文，EMO能生成流畅且富有表现力的面部动作和头部姿势，与提供的音轨细微变化紧密契合。这标志着音频驱动的人物视频生成领域取得了重要进展，这一直是AI研究人员多年来面临的挑战。

首席作者田林睿表示：“传统技术难以捕捉人类表情的全谱以及个体面部风格的独特性。为了解决这些问题，我们提出了EMO，这一新颖框架采用了直接的音频到视频合成方法，省去了3D模型或面部关键点的需求。”

直接音频转视频转换

EMO系统利用扩散模型，这是一种因为能够生成逼真合成图像而被广泛应用的强大AI技术。研究人员在一个包含超过250小时讲话视频的数据集上训练了EMO，这些视频来源于演讲、电影、电视节目和音乐表演。

与早期依赖于3D面部模型或混合形状的方法不同，EMO直接将音频波形转换为视频帧。这一能力使其能够捕捉与自然语音相关的细微动作和独特特征。

优越的视频质量与表现力

研究结果显示，EMO在视频质量、身份保持和表现力方面显著优于现有的最先进方法。一项用户研究表明，EMO生成的视频被认为比竞争系统制作的更自然和富有情感。

逼真的唱歌动画

除了对话视频，EMO还可以为唱歌的肖像动画，创建精准的嘴型和富有表现力的面部特征，使其与声乐表演同步。该系统能够生成任意长度的视频，具体取决于输入音频的时长。

“实验结果表明，EMO不仅可以生成令人信服的对话视频，还能在各种风格中制作唱歌动画，远超现有方法在表现力和真实感上的表现，”研究指出。

EMO所引入的发展暗示着，未来可以非常简单地根据单张照片和音频剪辑合成个性化视频内容。然而，关于这种技术在冒充或传播错误信息方面的潜在滥用，依然存在伦理担忧。研究人员致力于探索合成视频的检测方法，以解决这些问题。

5.5K

免费AI歌曲生成器是一个令人兴奋的工具，旨在帮助音乐创作者轻松生成原创歌曲。无论您是专业音乐人还是业余爱好者，这款生成器都能为您提供丰富的灵感和创作支持。通过简单的输入和智能算法，您可以探索多样的音乐风格，定制歌词和旋律。立即体验这款免费AI歌曲生成器，释放您的创意潜力，开始您的音乐创作之旅！

AI歌曲生成器 AI 歌词生成器

32K

摘要：通过MacGPT，您可以在Mac上轻松访问并与ChatGPT进行互动，提升您的工作效率与创意交流。

MacGPT AI应用构建器

一键AI，随时随地触手可及。

人工智能大型语言模型（LLMs）

19.4K

释放AI Picasso的无限创意！将人脸照片转化为令人惊叹的舞蹈作品。

AI舞蹈 AI艺术生成器

Find AI tools in YBX