昨天,我思考了谷歌能否在首次尝试中成功推出一款人工智能产品。随着VideoPoet的发布,我们似乎找到了答案。
本周,谷歌推出了VideoPoet,这是一种由谷歌研究团队的31名研究人员创建的开创性的大型语言模型(LLM),旨在应对多种视频生成任务。该模型的发展引人注目。根据团队的预审研究论文,“大多数现有模型使用扩散方法,这被广泛认为是视频生成的主要技术。通常,这些模型首先基于预训练的图像模型(如Stable Diffusion)来创建高保真度的图像,然后进行微调,以增强各帧之间的时间一致性。”
与此不同,谷歌研究团队选择了一种基于变换器架构的LLM,常用于文本和代码生成(如ChatGPT、Claude 2、Llama 2)。然而,VideoPoet是专门针对视频创作进行训练的。
预训练的重要性
VideoPoet的成功源于对2.7亿个视频和超过10亿对文本-图像的广泛预训练,这些数据来自公共互联网及其他来源。这些数据被转换为文本嵌入、视觉标记和音频标记,供模型使用。
与Runway和Pika等先进的消费级视频生成工具相比,VideoPoet的结果令人印象深刻,后者是谷歌投资的项目。
更长、更高质量的片段与改进的运动效果
谷歌研究声称,他们基于LLM的方法能够生成更长、高质量的片段,克服了当前扩散模型在长序列上保持连贯运动的局限。谷歌研究团队的成员Dan Kondratyuk和David Ross在一篇博文中提到:“视频生成中的一个瓶颈是实现连贯大动作的能力。许多领先模型只能生成小幅度运动,或者在尝试大幅度时出现明显伪影。”
然而,VideoPoet能够在最多16帧的视频中实现更大且更一致的运动效果。同时,它还提供多种功能,如模拟各种相机运动、视觉风格,甚至生成与视觉内容相辅相成的新音频。值得注意的是,它可以处理文本、图像和视频等多种输入类型作为提示。
通过将这些视频生成特性整合到单一的LLM中,VideoPoet消除了对多个专业工具的需求,提供了一种统一的全能视频创作解决方案。
事实上,谷歌研究团队进行的调查显示,观众更喜欢VideoPoet生成的视频。在人类对比更新扩散模型(如Source-1、VideoCrafter和Phenaki)评定的视频时,VideoPoet生成的视频始终占优势。
谷歌研究的博客提到:“平均而言,评分者选取了24%到35%的VideoPoet示例,认为其与提示更契合,而其他模型的选择仅为8%到11%。此外,41%到54%的VideoPoet示例被评为运动效果更有趣,而其他模型仅为11%到21%。”
专为竖屏视频而设计
谷歌研究根据默认生成竖屏视频定制了VideoPoet,以迎合Snapchat和TikTok等平台流行的移动视频观众。
展望未来,谷歌研究计划扩大VideoPoet的功能,支持“任意到任意”的生成任务,包括文本到音频和音频到视频,进一步推动视频和音频生成的潜能。
目前,VideoPoet尚未向公众开放,我们期待谷歌关于其发布的信息。在此之前,我们都在翘首以待,看它如何在市场中的其他工具面前脱颖而出。