谷歌研究团队近期推出了一款名为VLOGGER的创新人工智能系统,能够仅通过一张静态照片生成逼真的视频,展现出个人的讲话、手势和动作。这项开创性技术利用先进的机器学习模型,制作出极具真实感的影像,为众多应用提供了可能,同时也引发了对深度伪造和虚假信息的担忧。
在题为《VLOGGER:多模态扩散用于具化头像合成》的研究论文中,团队展示了如何利用一张人物照片加上一段音频,生成一个视频,其中该人物的声音与面部表情、头部运动和手势相协调。尽管视频可能存在一些缺陷,但这标志着对静态图像的动画展示取得了重大进展。
变革合成交流
在谷歌研究的Enric Corona的带领下,团队采用了扩散模型,这是一种强大的机器学习框架,广泛用于根据文本描述生成逼真图像。通过对这些模型进行改造以实现视频合成,并在一个全新的大规模数据集上进行训练,研究人员成功制作出能逼真地活动照片的系统。
作者指出:“与以往的方法不同,我们的方法不需要单独训练,避免了面部检测和裁剪,能够生成完整图像,并应对许多真实人类交流中至关重要的场景。”
这一成功的关键在于创建了一个名为MENTOR的庞大数据集,包含超过80万个不同身份和2200小时的视频,远超以往的数据集。这一广泛性使VLOGGER能够生成不同种族、年龄、服装、姿势和背景的个体视频,且不带偏见。
令人兴奋的应用和伦理考量
VLOGGER为多种应用铺平了道路。研究指出,该系统能够自动将视频配音翻译为不同语言、无缝编辑和补全视频帧,并从单张图像创建完整视频。
潜在应用包括演员为新表演授权的详细3D模型、虚拟现实(VR)和游戏中的逼真头像创建,以及更具表现力和互动性的AI驱动虚拟助手和聊天机器人。
谷歌将VLOGGER视为迈向“具化对话代理”的一步,这种代理能够使用言语、手势和眼神与人类自然互动。作者指出,VLOGGER可以作为独立解决方案,应用于演讲、教育、旁白、低带宽通信,甚至加强人机之间的文本互动。
然而,这项技术也带来了风险,尤其是关于深度伪造的产生——这种合成媒体可能会将某些人替换为其他人的相貌。随着AI生成视频变得越来越真实和易于获取,相关的虚假信息和数字操控问题可能会加剧。
AI创新的新视野
尽管功能强大,VLOGGER也存在一些局限性。生成的视频往往较短,背景静态,个体在三维空间内的运动感较弱。虽然其举止和言语模式看起来很真实,但尚未达到与真实人类完全无差别的程度。
尽管如此,VLOGGER标志着一项重大进展。作者指出:“我们对VLOGGER在三个不同的基准上进行了评估,证明我们的模型在图像质量、身份保持和时间一致性方面表现出色。”
随着AI生成媒体的不断发展,这类技术或将逐渐普及,导致区分真实个体和AI生成表现之间的界限变得愈加模糊。VLOGGER为我们展示了这一未来,彰显了人工智能的迅速进步,同时突显了区分真实性与人造性的日益艰难。