随着企业越来越多地利用生成性人工智能的潜力,竞争正在加剧,目标是开发更先进的解决方案。其中一个突出例子是Lumiere,这是一种时空扩散模型,由谷歌、魏茨曼科学研究所和特拉维夫大学的研究人员共同开发,旨在增强现实视频生成的能力。
最近发布的研究论文详细介绍了Lumiere的创新技术,但目前尚未向公众开放测试。一旦发布,谷歌有可能在当前由Runway、Pika和Stability AI主导的AI视频领域中成为一个强有力的竞争者。
Lumiere的功能
Lumiere的名称源自法语中的“光”,它是一种用于生成真实感和风格化视频的视频扩散模型。用户可以输入自然语言的文本描述,以创建与提示相符的视频。此外,用户还可以上传静态图像,并应用文本提示将其转换为动态视频。其主要功能包括:
- 图像填充:根据文本命令插入特定对象;
- 动态影像:为某些场景部分添加运动效果;
- 风格化生成:允许用户创作根据所选参考图像风格的视频。
研究人员强调:“我们展示了最先进的文本到视频生成结果,使得内容创作和视频编辑任务变得更加多样化,包括图像到视频、视频填充和风格化生成。”
性能与方法
虽然行业内有类似的能力,如Runway和Pika提供的服务,研究人员指出,目前模型往往因级联方法而面临时间一致性问题。通常,一个基础模型生成关键帧,然后利用时间超分辨率(TSR)模型来填补空白,这限制了视频的时长和动作真实感。
Lumiere通过使用时空U-Net架构解决了这些挑战,能够一次性生成视频的完整时间序列,增强了真实感和连贯性。研究人员表示:“通过结合空间和时间的下采样与上采样,并在预训练的文本到图像扩散模型基础上进行处理,我们的方法学习生成帧率完整、低分辨率的视频。”
Lumiere在3000万段视频及其对应文本说明的数据集上进行训练,能够以16帧每秒的速度生成80帧视频,尽管数据集的来源尚不清楚。
与其他AI视频模型的比较
在与Pika、Runway和Stability AI的模型进行测试时,研究人员注意到这些竞争对手虽然每帧的视觉质量很高,但四秒钟的短视频输出往往缺乏动态运动,导致几乎静态的片段。而ImagenVideo也展示了有限的运动质量。
“相比之下,我们的方法能够生成5秒的动态视频,具有更大的运动幅度,同时保持时间一致性和整体质量,”研究人员报告道。用户调查显示,在文本和图像到视频生成方面,Lumiere比其他模型更受欢迎。
尽管Lumiere在AI视频领域代表了一个有前景的进展,但需注意的是,它尚未开放测试。研究人员也承认了其局限性,例如无法生成多镜头或无缝场景转换的视频,这个领域将是未来研究的重点。