Stability AI发布SVD 1.1:AI视频生成的新进展
Stability AI以其不断扩展的开源AI内容创作与编程模型而闻名,近日宣布其图像到视频的潜在扩散模型Stable Video Diffusion(SVD)升级至新版本SVD 1.1。
SVD 1.1简介
新版本SVD 1.1是SVD 1.0的改进版本,旨在生成更短、更流畅的AI视频。Stability AI的首席技术官Tom Mason确认,SVD 1.1现已在Hugging Face平台上公开发布,并将纳入Stability AI的订阅会员,个人和企业的订阅费用从免费起,最高可达每月20美元。商业用户需订阅以进行部署,而研究使用仍对所有用户开放并免费。
SVD 1.1的增强功能
Stability AI于2023年11月推出SVD,最初发布了两个AI视频生成模型:SVD可以从静态图像生成四秒、最多14帧的视频,而SVD-XT是经过微调的版本,能生成最多25帧。基于SVD-XT,SVD 1.1同样能够生成四秒、25帧、分辨率为1024×576的视频,前提是提供的上下文帧与之同等大小。
这一升级显著提升视频输出的一致性。早期版本有时在真实感、运动效果以及生成现实面孔和人物方面存在困难,而SVD 1.1致力于解决这些问题,承诺在最终输出中实现更好的运动动态。
根据公司表示,“SVD 1.1的微调是在6 FPS和运动桶ID 127的固定条件下进行的,以提升输出一致性,且无需调整超参数。” 尽管这些设置是可调节的,超出固定条件时性能可能会有所不同。
性能与未来展望
尽管Stability AI声称SVD 1.1在性能上有所提升,实际应用效果仍需进一步评估。该模型的Hugging Face页面强调其以研究为导向的设计,并承认某些之前版本的问题可能仍会存在。
除了Hugging Face,Stable Video Diffusion模型还可通过Stability AI开发者平台的API访问,允许开发者无缝集成先进的视频生成能力。Stable Video Diffusion API以MP4格式生成四秒、24 FPS的视频,生成25帧,并附带插值帧。运动强度控制以及对多种布局和分辨率(如1024×576、768×768和576×1024)的支持,进一步增强了其可用性。
展望未来
在2023年,Stability AI在生成AI领域取得了重大进展,频繁更新模型,这一趋势预计将延续到2024年。公司成立于2019年,获得了大量投资,包括2022年的1.01亿美元融资。然而,它也面临来自Runway和Pika等其他AI视频生成公司的竞争,这些公司通过用户友好的网络平台吸引了不少用户,提供视频定制和提升功能。
最近,Runway推出了多运动画笔功能,用户可以为AI视频的特定区域添加动画效果。而Pika则允许用户编辑视频的特定区域,比如将牛脸变为鸭子。然而,两者尚未为其模型提供API,限制了与第三方应用程序的集成。
随着AI视频生成领域不断发展,Stability AI的SVD 1.1标志着一个值得关注的激动人心的进展。