谷歌推出Lumiere：时空扩散模型打造逼真AI视频

Home AI News CN 谷歌推出Lumiere：时空扩散模型打造逼真AI视频

随着企业越来越多地利用生成性人工智能的潜力，竞争正在加剧，目标是开发更先进的解决方案。其中一个突出例子是Lumiere，这是一种时空扩散模型，由谷歌、魏茨曼科学研究所和特拉维夫大学的研究人员共同开发，旨在增强现实视频生成的能力。

最近发布的研究论文详细介绍了Lumiere的创新技术，但目前尚未向公众开放测试。一旦发布，谷歌有可能在当前由Runway、Pika和Stability AI主导的AI视频领域中成为一个强有力的竞争者。

Lumiere的功能

Lumiere的名称源自法语中的“光”，它是一种用于生成真实感和风格化视频的视频扩散模型。用户可以输入自然语言的文本描述，以创建与提示相符的视频。此外，用户还可以上传静态图像，并应用文本提示将其转换为动态视频。其主要功能包括：

- 图像填充：根据文本命令插入特定对象；

- 动态影像：为某些场景部分添加运动效果；

- 风格化生成：允许用户创作根据所选参考图像风格的视频。

研究人员强调：“我们展示了最先进的文本到视频生成结果，使得内容创作和视频编辑任务变得更加多样化，包括图像到视频、视频填充和风格化生成。”

性能与方法

虽然行业内有类似的能力，如Runway和Pika提供的服务，研究人员指出，目前模型往往因级联方法而面临时间一致性问题。通常，一个基础模型生成关键帧，然后利用时间超分辨率（TSR）模型来填补空白，这限制了视频的时长和动作真实感。

Lumiere通过使用时空U-Net架构解决了这些挑战，能够一次性生成视频的完整时间序列，增强了真实感和连贯性。研究人员表示：“通过结合空间和时间的下采样与上采样，并在预训练的文本到图像扩散模型基础上进行处理，我们的方法学习生成帧率完整、低分辨率的视频。”

Lumiere在3000万段视频及其对应文本说明的数据集上进行训练，能够以16帧每秒的速度生成80帧视频，尽管数据集的来源尚不清楚。

与其他AI视频模型的比较

在与Pika、Runway和Stability AI的模型进行测试时，研究人员注意到这些竞争对手虽然每帧的视觉质量很高，但四秒钟的短视频输出往往缺乏动态运动，导致几乎静态的片段。而ImagenVideo也展示了有限的运动质量。

“相比之下，我们的方法能够生成5秒的动态视频，具有更大的运动幅度，同时保持时间一致性和整体质量，”研究人员报告道。用户调查显示，在文本和图像到视频生成方面，Lumiere比其他模型更受欢迎。

尽管Lumiere在AI视频领域代表了一个有前景的进展，但需注意的是，它尚未开放测试。研究人员也承认了其局限性，例如无法生成多镜头或无缝场景转换的视频，这个领域将是未来研究的重点。

112.3K

Google业务资料增长经理致力于提升企业的本地搜索引擎优化，帮助他们强化在线资料展示。

Google商家资料 AI SEO助手

免费在线人工智能教育，面向非专业人士，助您轻松学习AI知识。

人工智能教育 AI课程

24.4K

AI销售管理解决方案是企业在竞争激烈的市场中提升业绩和效率的重要工具。这种解决方案利用人工智能技术来优化销售流程、预测客户需求并提供个性化的客户体验。通过自动化重复性任务，销售团队能够专注于战略性工作，进而提升整体业绩。在当前的数字化时代，掌握AI销售管理解决方案已成为企业成功的关键。

AI销售管理销售助手

1.2M

利用Humbot的AI人性化功能，可以有效绕过各种AI检测系统。通过优化文本质量和创意表现，Humbot帮助用户创建更自然、真实的内容，从而获得更好的识别效果。让我们探索如何使用这些创新工具实现更高效的内容生成。

AI人性化工具 AI检测器

Find AI tools in YBX