谷歌推出惊艳的新多模态AI视频创作工具：探索VideoPoet！

Home AI News CN 谷歌推出惊艳的新多模态AI视频创作工具：探索VideoPoet！

Updated on 十二月 20 2023

昨天，我思考了谷歌能否在首次尝试中成功推出一款人工智能产品。随着VideoPoet的发布，我们似乎找到了答案。

本周，谷歌推出了VideoPoet，这是一种由谷歌研究团队的31名研究人员创建的开创性的大型语言模型（LLM），旨在应对多种视频生成任务。该模型的发展引人注目。根据团队的预审研究论文，“大多数现有模型使用扩散方法，这被广泛认为是视频生成的主要技术。通常，这些模型首先基于预训练的图像模型（如Stable Diffusion）来创建高保真度的图像，然后进行微调，以增强各帧之间的时间一致性。”

与此不同，谷歌研究团队选择了一种基于变换器架构的LLM，常用于文本和代码生成（如ChatGPT、Claude 2、Llama 2）。然而，VideoPoet是专门针对视频创作进行训练的。

预训练的重要性

VideoPoet的成功源于对2.7亿个视频和超过10亿对文本-图像的广泛预训练，这些数据来自公共互联网及其他来源。这些数据被转换为文本嵌入、视觉标记和音频标记，供模型使用。

与Runway和Pika等先进的消费级视频生成工具相比，VideoPoet的结果令人印象深刻，后者是谷歌投资的项目。

更长、更高质量的片段与改进的运动效果

谷歌研究声称，他们基于LLM的方法能够生成更长、高质量的片段，克服了当前扩散模型在长序列上保持连贯运动的局限。谷歌研究团队的成员Dan Kondratyuk和David Ross在一篇博文中提到：“视频生成中的一个瓶颈是实现连贯大动作的能力。许多领先模型只能生成小幅度运动，或者在尝试大幅度时出现明显伪影。”

然而，VideoPoet能够在最多16帧的视频中实现更大且更一致的运动效果。同时，它还提供多种功能，如模拟各种相机运动、视觉风格，甚至生成与视觉内容相辅相成的新音频。值得注意的是，它可以处理文本、图像和视频等多种输入类型作为提示。

通过将这些视频生成特性整合到单一的LLM中，VideoPoet消除了对多个专业工具的需求，提供了一种统一的全能视频创作解决方案。

事实上，谷歌研究团队进行的调查显示，观众更喜欢VideoPoet生成的视频。在人类对比更新扩散模型（如Source-1、VideoCrafter和Phenaki）评定的视频时，VideoPoet生成的视频始终占优势。

谷歌研究的博客提到：“平均而言，评分者选取了24%到35%的VideoPoet示例，认为其与提示更契合，而其他模型的选择仅为8%到11%。此外，41%到54%的VideoPoet示例被评为运动效果更有趣，而其他模型仅为11%到21%。”

专为竖屏视频而设计

谷歌研究根据默认生成竖屏视频定制了VideoPoet，以迎合Snapchat和TikTok等平台流行的移动视频观众。

展望未来，谷歌研究计划扩大VideoPoet的功能，支持“任意到任意”的生成任务，包括文本到音频和音频到视频，进一步推动视频和音频生成的潜能。

目前，VideoPoet尚未向公众开放，我们期待谷歌关于其发布的信息。在此之前，我们都在翘首以待，看它如何在市场中的其他工具面前脱颖而出。

探索 Midjourney V6：全新增强的提示与图内文本功能揭晓！

探索苹果最新AI研究如何颠覆你的iPhone使用体验