微软最新AI视频模型提升轨迹生成技术

Home AI News CN 微软最新AI视频模型提升轨迹生成技术

人工智能公司正在激烈竞争，以推动视频生成技术的进步。近年来，像Stability AI和Pika Labs这样的关键参与者推出了能够根据文本和图像提示创建视频的模型。在这些进展的基础上，微软推出了名为DragNUWA的新模型，旨在提高视频制作的控制能力。

DragNUWA通过引入基于轨迹的生成方法，增强了传统的文本和图像输入方式，使用户能够沿特定路径操控对象或整个视频帧。这一创新不仅使视频创作在语义、空间和时间方面具有更高的精准度，同时也确保了输出质量。

微软已将该模型的权重和演示开源，邀请社区进行实验。然而，值得注意的是，这仍然是一个研究项目，尚未完全成熟。

DragNUWA的独特之处

以往的AI驱动视频生成技术通常依赖文本、图像或轨迹输入，但这些方法往往难以提供细致的控制。例如，仅靠文本和图像可能无法捕捉到视频关键的细腻运动细节，而语言也可能导致对抽象概念的歧义。

在2023年8月，微软的AI团队推出了DragNUWA，这是一种开放域的基于扩散的视频生成模型，整合了图像、文本和轨迹输入，实现了精确的视频控制。用户可以定义特定的文本、图像和轨迹，以管理视频中各种元素，如相机运动和对象移动。

例如，用户可以上传一张船在水上的图片，配上文本提示“船在湖中航行”，并提供船的移动方向。这些输入会生成船只按照指定路径航行的视频，轨迹明确了运动细节，语言描绘了未来出现的对象，图像则区分各个主题。

DragNUWA的应用

DragNUWA的早期版本1.5刚在Hugging Face上线，利用Stability AI的Stable Video Diffusion模型，根据定义的路径为图像添加动态效果。随着这一技术的发展，它有望简化视频生成和编辑过程。想象一下，通过简单的指令即可改变背景、为图像添加动画、并指导运动。

AI爱好者对这一进展感到兴奋，认为这是创意AI的重大进步。然而，该模型在实际应用中的表现仍有待观察。初步测试表明，DragNUWA能够准确执行相机运动和对象沿不同拖拽轨迹的移动。

“DragNUWA支持复杂的曲线路径，使对象能够沿复杂轨迹移动。它也可以适应可变轨迹长度，允许更大的运动幅度。此外，DragNUWA可以同时控制多个对象的轨迹。根据我们的了解，目前没有其他视频生成模型能够实现这样的轨迹控制，这突显了DragNUWA在推动视频生成技术方面的潜力，”微软研究人员在他们的论文中表示。

此项研究为不断扩展的AI视频研究领域做出了贡献。近期，Pika Labs因其类似ChatGPT的文本到视频接口而备受关注，该接口能够生成高质量的短视频，并提供多种自定义选项。

Luminar与梅赛德斯-奔驰合作推出创新自动紧急转向系统

微软与PNNL合作推动AI创新提升电池技术

Most people like

Hirebee

33.2K

彻底改变招聘方式，提升人才获取效率。

招聘软件 AI招聘

RunDiffusion

266.5K

基于云的图像创建平台: 提供便捷图像生成解决方案。

云平台 AI艺术生成器

Handwriting OCR

31.6K

精准数字化手写内容是将手写文字通过先进的数字技术转化为电子文本的过程。这项技术不仅提升了信息的便捷性和可访问性，还为教育、办公和创意领域带来了全新的可能性。通过高效的识别算法，手写内容能够快速转化为可编辑的格式，让人们轻松存档和共享。无论是在课堂笔记中还是在工作文件中，精准数字化手写内容都极大地提高了效率与准确性。

手写文字识别手写识别

CoeFont

133.3K

使用AI技术提升您的内容创作潜力。

人工智能语音文本转语音工具

Find AI tools in YBX