微软发布VASA-1：AI框架让人类头像“活”起来，精彩呈现声音与歌曲

Home AI News CN 微软发布VASA-1：AI框架让人类头像“活”起来，精彩呈现声音与歌曲

微软在人工智能驱动的内容生成领域取得了重大进展，推出了VASA-1，这是一种开创性框架，可以将静态人像转变为动态的对话和演唱视频。该项目标志着AI生成内容的显著转变，只需一张静态图片和一个音频文件即可实现。

重点关注人工智能代理

微软展示了VASA-1的多种功能示例，其中包括米开朗基罗的《蒙娜丽莎》说唱表演。然而，微软也意识到深度伪造技术的潜在风险，明确表示VASA-1目前只是一个研究展示，尚无商业化计划。

让静态图像活起来

如今的AI视频创作工具既可以用于积极的宣传，也可能被滥用来制作有害的伪造视频。尽管如此，深度伪造技术也有正面的应用，例如艺术家可能会同意为宣传而创造他们的数字肖像。VASA-1在这条细微的界线上游走，通过“生成逼真的虚拟角色对话面孔”，并增强其情感表现能力（VAS）来实现这一目标。

根据微软的说法，该模型可以使用一个人的静态图像和语音音频文件，生成与音频同步的口型视频，并展现一系列情感、面部细微变化和自然头部动作。公司提供了一些示例，展示如何将一张人像转变为该人物说话或唱歌的视频。

“核心创新包括一个全面的面部动态和头部运动生成模型，运行在面部潜在空间内，同时使用视频创建一个表现丰富、可分离的面部潜在空间，”研究人员在公司官网上解释道。

用户对AI生成内容的控制

VASA-1允许用户对生成内容进行精细控制，通过简单的滑块调整运动序列、眼睛方向、头部位置和情感表达。它还可以处理多种类型的内容，包括艺术图像、音乐音频和非英语语音。

VASA的未来实施

尽管微软的样本看起来逼真，但有些片段揭示了其AI生成的特性，运动不够流畅。该方法以512 x 512像素的分辨率生成视频，在离线批处理时最高可达到每秒45帧，在在线流媒体中支持每秒40帧。微软声称VASA-1在新的评估标准下优于现有方法。

然而，必须意识到其可能被误用以曲解个体信息，因此微软决定不将VASA-1作为商业产品或API发布。公司强调，所有用于演示剪辑的人像都是AI生成的，该技术主要旨在为虚拟AI头像创造积极的情感表现能力，而非欺骗性内容。

从长远来看，微软设想VASA-1为逼真的虚拟人偶铺平道路，这些人偶能够复制人类的动作和情感。这一进展可能会提升教育公平，改善有沟通障碍人士的可及性，并为需要支持的人提供陪伴或治疗支持。

9.5K

探索Midjourney艺术的风格参考代码集合，全面展示多样化的创作风格与灵感，让您在艺术创作过程中获得创新的启发与参考。

Midjourney AI艺术生成器

13.3K

Roboto是一个强大的人工智能平台，专注于通过文本、图片和语音创建引人注目的内容。

人工智能 AI 内容生成器

5.6K

AI聊天机器人，为用户带来个性化的对话体验，提升互动质量和用户满意度。

人工智能聊天机器人 AI聊天机器人

优化 AI 模型的提示评估流程。

提示评估大型语言模型（LLMs）

Find AI tools in YBX