微软在人工智能驱动的内容生成领域取得了重大进展,推出了VASA-1,这是一种开创性框架,可以将静态人像转变为动态的对话和演唱视频。该项目标志着AI生成内容的显著转变,只需一张静态图片和一个音频文件即可实现。
重点关注人工智能代理
微软展示了VASA-1的多种功能示例,其中包括米开朗基罗的《蒙娜丽莎》说唱表演。然而,微软也意识到深度伪造技术的潜在风险,明确表示VASA-1目前只是一个研究展示,尚无商业化计划。
让静态图像活起来
如今的AI视频创作工具既可以用于积极的宣传,也可能被滥用来制作有害的伪造视频。尽管如此,深度伪造技术也有正面的应用,例如艺术家可能会同意为宣传而创造他们的数字肖像。VASA-1在这条细微的界线上游走,通过“生成逼真的虚拟角色对话面孔”,并增强其情感表现能力(VAS)来实现这一目标。
根据微软的说法,该模型可以使用一个人的静态图像和语音音频文件,生成与音频同步的口型视频,并展现一系列情感、面部细微变化和自然头部动作。公司提供了一些示例,展示如何将一张人像转变为该人物说话或唱歌的视频。
“核心创新包括一个全面的面部动态和头部运动生成模型,运行在面部潜在空间内,同时使用视频创建一个表现丰富、可分离的面部潜在空间,”研究人员在公司官网上解释道。
用户对AI生成内容的控制
VASA-1允许用户对生成内容进行精细控制,通过简单的滑块调整运动序列、眼睛方向、头部位置和情感表达。它还可以处理多种类型的内容,包括艺术图像、音乐音频和非英语语音。
VASA的未来实施
尽管微软的样本看起来逼真,但有些片段揭示了其AI生成的特性,运动不够流畅。该方法以512 x 512像素的分辨率生成视频,在离线批处理时最高可达到每秒45帧,在在线流媒体中支持每秒40帧。微软声称VASA-1在新的评估标准下优于现有方法。
然而,必须意识到其可能被误用以曲解个体信息,因此微软决定不将VASA-1作为商业产品或API发布。公司强调,所有用于演示剪辑的人像都是AI生成的,该技术主要旨在为虚拟AI头像创造积极的情感表现能力,而非欺骗性内容。
从长远来看,微软设想VASA-1为逼真的虚拟人偶铺平道路,这些人偶能够复制人类的动作和情感。这一进展可能会提升教育公平,改善有沟通障碍人士的可及性,并为需要支持的人提供陪伴或治疗支持。