谷歌研究人员推出“VLOGGER”：一种让静态照片焕发生机的人工智能技术

Home AI News CN 谷歌研究人员推出“VLOGGER”：一种让静态照片焕发生机的人工智能技术

谷歌研究团队近期推出了一款名为VLOGGER的创新人工智能系统，能够仅通过一张静态照片生成逼真的视频，展现出个人的讲话、手势和动作。这项开创性技术利用先进的机器学习模型，制作出极具真实感的影像，为众多应用提供了可能，同时也引发了对深度伪造和虚假信息的担忧。

在题为《VLOGGER：多模态扩散用于具化头像合成》的研究论文中，团队展示了如何利用一张人物照片加上一段音频，生成一个视频，其中该人物的声音与面部表情、头部运动和手势相协调。尽管视频可能存在一些缺陷，但这标志着对静态图像的动画展示取得了重大进展。

变革合成交流

在谷歌研究的Enric Corona的带领下，团队采用了扩散模型，这是一种强大的机器学习框架，广泛用于根据文本描述生成逼真图像。通过对这些模型进行改造以实现视频合成，并在一个全新的大规模数据集上进行训练，研究人员成功制作出能逼真地活动照片的系统。

作者指出：“与以往的方法不同，我们的方法不需要单独训练，避免了面部检测和裁剪，能够生成完整图像，并应对许多真实人类交流中至关重要的场景。”

这一成功的关键在于创建了一个名为MENTOR的庞大数据集，包含超过80万个不同身份和2200小时的视频，远超以往的数据集。这一广泛性使VLOGGER能够生成不同种族、年龄、服装、姿势和背景的个体视频，且不带偏见。

令人兴奋的应用和伦理考量

VLOGGER为多种应用铺平了道路。研究指出，该系统能够自动将视频配音翻译为不同语言、无缝编辑和补全视频帧，并从单张图像创建完整视频。

潜在应用包括演员为新表演授权的详细3D模型、虚拟现实（VR）和游戏中的逼真头像创建，以及更具表现力和互动性的AI驱动虚拟助手和聊天机器人。

谷歌将VLOGGER视为迈向“具化对话代理”的一步，这种代理能够使用言语、手势和眼神与人类自然互动。作者指出，VLOGGER可以作为独立解决方案，应用于演讲、教育、旁白、低带宽通信，甚至加强人机之间的文本互动。

然而，这项技术也带来了风险，尤其是关于深度伪造的产生——这种合成媒体可能会将某些人替换为其他人的相貌。随着AI生成视频变得越来越真实和易于获取，相关的虚假信息和数字操控问题可能会加剧。

AI创新的新视野

尽管功能强大，VLOGGER也存在一些局限性。生成的视频往往较短，背景静态，个体在三维空间内的运动感较弱。虽然其举止和言语模式看起来很真实，但尚未达到与真实人类完全无差别的程度。

尽管如此，VLOGGER标志着一项重大进展。作者指出：“我们对VLOGGER在三个不同的基准上进行了评估，证明我们的模型在图像质量、身份保持和时间一致性方面表现出色。”

随着AI生成媒体的不断发展，这类技术或将逐渐普及，导致区分真实个体和AI生成表现之间的界限变得愈加模糊。VLOGGER为我们展示了这一未来，彰显了人工智能的迅速进步，同时突显了区分真实性与人造性的日益艰难。

57.2K

创建属于您的理想动漫图片，领略AI技术的魅力。

动漫图片 AI 动漫和卡通生成器

15.6K

基于人工智能的播客生成技术，能够处理多种文本内容类型，适用于各类主题和形式。

播客创作 AI播客助手

73K

提升您的线上形象，尽在专业头像照片中。

专业头像 AI头像生成器

39.3K

即时项目规划与快速开发的综合平台。

项目规划 AI Analytics助手

Find AI tools in YBX