随着OpenAI重新迎回山姆·奥特曼,各大竞争对手在人工智能(AI)领域的竞争愈加激烈。继Anthropic发布Claude 2.1和Adobe收购Rephrase.ai之后,Stability AI宣布推出Stable Video Diffusion,正式进军日益热门的视频生成领域。
Stable Video Diffusion简介
Stable Video Diffusion(SVD)目前仅供研究使用,包含两个先进的AI模型—SVD和SVD-XT,能够根据静态图像生成短视频片段。Stability AI声称,这些模型生成的高质量输出可与现有的AI视频生成器竞争,甚至超越它们。
这两个模型作为研究预览版本开源,将更进一步整合用户反馈,以提升未来的商业应用功能。
深入了解Stable Video Diffusion
根据Stability AI的博客文章,SVD和SVD-XT是潜在扩散模型,通过输入单张静态图像生成576 x 1024的视频片段。它们的内容生成速度可达每秒三到30帧,尽管视频时长有限制为四秒。SVD模型从静态图像生成14帧,而SVD-XT模型可以生成多达25帧。
在开发Stable Video Diffusion的过程中,Stability AI使用了大约6亿个经挑选的视频数据集样本来训练基础模型,随后在一个较小的高质量数据集(包含多达100万个片段)上进行微调。这一培训使模型具备文本到视频和图像到视频生成的能力。
虽然训练数据来源于公开研究数据集,但具体来源并未明确说明。
值得注意的是,关于SVD的白皮书表明,该模型可以进一步调整,以支持多视角合成,从单张图像中展现对象的一致视图。Stable Video Diffusion的潜在应用涵盖广告、教育和娱乐等多个领域。
输出质量与局限性
在外部评估中,SVD的输出表现出高质量,优于Runway和Pika Labs等知名封闭文本到视频模型。然而,Stability AI也承认这些模型仍处于早期阶段;它们在真实感生成方面常常遇到困难,生成的视频可能缺乏动态,而且人脸或人物的表现往往不够准确。
在下一步中,公司计划进一步优化这两个模型,解决当前的局限,推出新功能,如对文本提示的支持和文本渲染,以便商业使用。他们强调,这次发布旨在邀请用户进行开放式研究,识别和解决潜在问题,包括偏差,以确保安全部署。
Stability AI设想在此基础上构建多样化的模型生态系统,类似于Stable Diffusion技术的生态圈。他们还邀请用户注册即将推出的网络体验,以便实现文本到视频的生成,不过具体的可用时间尚不明确。
如何使用这些模型
用户可以通过访问Stability AI的GitHub仓库获取Stable Video Diffusion模型的代码,以及在Hugging Face页面上找到本地模型执行所需的权重。使用前,用户需要接受明确提出的允许和限制应用的条款。
当前,允许的使用场景包括为设计、教育或创意工具生成艺术作品。然而,据Stability AI称,生成关于人物或事件的真实再现不在此次项目的范围内。