微软最新AI视频模型提升轨迹生成技术

人工智能公司正在激烈竞争,以推动视频生成技术的进步。近年来,像Stability AI和Pika Labs这样的关键参与者推出了能够根据文本和图像提示创建视频的模型。在这些进展的基础上,微软推出了名为DragNUWA的新模型,旨在提高视频制作的控制能力。

DragNUWA通过引入基于轨迹的生成方法,增强了传统的文本和图像输入方式,使用户能够沿特定路径操控对象或整个视频帧。这一创新不仅使视频创作在语义、空间和时间方面具有更高的精准度,同时也确保了输出质量。

微软已将该模型的权重和演示开源,邀请社区进行实验。然而,值得注意的是,这仍然是一个研究项目,尚未完全成熟。

DragNUWA的独特之处

以往的AI驱动视频生成技术通常依赖文本、图像或轨迹输入,但这些方法往往难以提供细致的控制。例如,仅靠文本和图像可能无法捕捉到视频关键的细腻运动细节,而语言也可能导致对抽象概念的歧义。

在2023年8月,微软的AI团队推出了DragNUWA,这是一种开放域的基于扩散的视频生成模型,整合了图像、文本和轨迹输入,实现了精确的视频控制。用户可以定义特定的文本、图像和轨迹,以管理视频中各种元素,如相机运动和对象移动。

例如,用户可以上传一张船在水上的图片,配上文本提示“船在湖中航行”,并提供船的移动方向。这些输入会生成船只按照指定路径航行的视频,轨迹明确了运动细节,语言描绘了未来出现的对象,图像则区分各个主题。

DragNUWA的应用

DragNUWA的早期版本1.5刚在Hugging Face上线,利用Stability AI的Stable Video Diffusion模型,根据定义的路径为图像添加动态效果。随着这一技术的发展,它有望简化视频生成和编辑过程。想象一下,通过简单的指令即可改变背景、为图像添加动画、并指导运动。

AI爱好者对这一进展感到兴奋,认为这是创意AI的重大进步。然而,该模型在实际应用中的表现仍有待观察。初步测试表明,DragNUWA能够准确执行相机运动和对象沿不同拖拽轨迹的移动。

“DragNUWA支持复杂的曲线路径,使对象能够沿复杂轨迹移动。它也可以适应可变轨迹长度,允许更大的运动幅度。此外,DragNUWA可以同时控制多个对象的轨迹。根据我们的了解,目前没有其他视频生成模型能够实现这样的轨迹控制,这突显了DragNUWA在推动视频生成技术方面的潜力,”微软研究人员在他们的论文中表示。

此项研究为不断扩展的AI视频研究领域做出了贡献。近期,Pika Labs因其类似ChatGPT的文本到视频接口而备受关注,该接口能够生成高质量的短视频,并提供多种自定义选项。

Most people like

Find AI tools in YBX