Stability AI推出SVD 1.1：提升AI视频制作一致性的扩散模型

Home AI News CN Stability AI推出SVD 1.1：提升AI视频制作一致性的扩散模型

Stability AI发布SVD 1.1：AI视频生成的新进展

Stability AI以其不断扩展的开源AI内容创作与编程模型而闻名，近日宣布其图像到视频的潜在扩散模型Stable Video Diffusion（SVD）升级至新版本SVD 1.1。

SVD 1.1简介

新版本SVD 1.1是SVD 1.0的改进版本，旨在生成更短、更流畅的AI视频。Stability AI的首席技术官Tom Mason确认，SVD 1.1现已在Hugging Face平台上公开发布，并将纳入Stability AI的订阅会员，个人和企业的订阅费用从免费起，最高可达每月20美元。商业用户需订阅以进行部署，而研究使用仍对所有用户开放并免费。

SVD 1.1的增强功能

Stability AI于2023年11月推出SVD，最初发布了两个AI视频生成模型：SVD可以从静态图像生成四秒、最多14帧的视频，而SVD-XT是经过微调的版本，能生成最多25帧。基于SVD-XT，SVD 1.1同样能够生成四秒、25帧、分辨率为1024×576的视频，前提是提供的上下文帧与之同等大小。

这一升级显著提升视频输出的一致性。早期版本有时在真实感、运动效果以及生成现实面孔和人物方面存在困难，而SVD 1.1致力于解决这些问题，承诺在最终输出中实现更好的运动动态。

根据公司表示，“SVD 1.1的微调是在6 FPS和运动桶ID 127的固定条件下进行的，以提升输出一致性，且无需调整超参数。” 尽管这些设置是可调节的，超出固定条件时性能可能会有所不同。

性能与未来展望

尽管Stability AI声称SVD 1.1在性能上有所提升，实际应用效果仍需进一步评估。该模型的Hugging Face页面强调其以研究为导向的设计，并承认某些之前版本的问题可能仍会存在。

除了Hugging Face，Stable Video Diffusion模型还可通过Stability AI开发者平台的API访问，允许开发者无缝集成先进的视频生成能力。Stable Video Diffusion API以MP4格式生成四秒、24 FPS的视频，生成25帧，并附带插值帧。运动强度控制以及对多种布局和分辨率（如1024×576、768×768和576×1024）的支持，进一步增强了其可用性。

展望未来

在2023年，Stability AI在生成AI领域取得了重大进展，频繁更新模型，这一趋势预计将延续到2024年。公司成立于2019年，获得了大量投资，包括2022年的1.01亿美元融资。然而，它也面临来自Runway和Pika等其他AI视频生成公司的竞争，这些公司通过用户友好的网络平台吸引了不少用户，提供视频定制和提升功能。

最近，Runway推出了多运动画笔功能，用户可以为AI视频的特定区域添加动画效果。而Pika则允许用户编辑视频的特定区域，比如将牛脸变为鸭子。然而，两者尚未为其模型提供API，限制了与第三方应用程序的集成。

随着AI视频生成领域不断发展，Stability AI的SVD 1.1标志着一个值得关注的激动人心的进展。

NVIDIA与Supermicro：成功实现生成性AI的关键技术栈

Elemind获得1200万美元融资，推出提升脑功能和改善睡眠质量的神经科技可穿戴设备