Stability AI发布Stable Video扩散模型研究预览，助力创意应用创新

Home AI News CN Stability AI发布Stable Video扩散模型研究预览，助力创意应用创新

Updated on 十一月 23 2023

随着OpenAI重新迎回山姆·奥特曼，各大竞争对手在人工智能（AI）领域的竞争愈加激烈。继Anthropic发布Claude 2.1和Adobe收购Rephrase.ai之后，Stability AI宣布推出Stable Video Diffusion，正式进军日益热门的视频生成领域。

Stable Video Diffusion简介

Stable Video Diffusion（SVD）目前仅供研究使用，包含两个先进的AI模型—SVD和SVD-XT，能够根据静态图像生成短视频片段。Stability AI声称，这些模型生成的高质量输出可与现有的AI视频生成器竞争，甚至超越它们。

这两个模型作为研究预览版本开源，将更进一步整合用户反馈，以提升未来的商业应用功能。

深入了解Stable Video Diffusion

根据Stability AI的博客文章，SVD和SVD-XT是潜在扩散模型，通过输入单张静态图像生成576 x 1024的视频片段。它们的内容生成速度可达每秒三到30帧，尽管视频时长有限制为四秒。SVD模型从静态图像生成14帧，而SVD-XT模型可以生成多达25帧。

在开发Stable Video Diffusion的过程中，Stability AI使用了大约6亿个经挑选的视频数据集样本来训练基础模型，随后在一个较小的高质量数据集（包含多达100万个片段）上进行微调。这一培训使模型具备文本到视频和图像到视频生成的能力。

虽然训练数据来源于公开研究数据集，但具体来源并未明确说明。

值得注意的是，关于SVD的白皮书表明，该模型可以进一步调整，以支持多视角合成，从单张图像中展现对象的一致视图。Stable Video Diffusion的潜在应用涵盖广告、教育和娱乐等多个领域。

输出质量与局限性

在外部评估中，SVD的输出表现出高质量，优于Runway和Pika Labs等知名封闭文本到视频模型。然而，Stability AI也承认这些模型仍处于早期阶段；它们在真实感生成方面常常遇到困难，生成的视频可能缺乏动态，而且人脸或人物的表现往往不够准确。

在下一步中，公司计划进一步优化这两个模型，解决当前的局限，推出新功能，如对文本提示的支持和文本渲染，以便商业使用。他们强调，这次发布旨在邀请用户进行开放式研究，识别和解决潜在问题，包括偏差，以确保安全部署。

Stability AI设想在此基础上构建多样化的模型生态系统，类似于Stable Diffusion技术的生态圈。他们还邀请用户注册即将推出的网络体验，以便实现文本到视频的生成，不过具体的可用时间尚不明确。

如何使用这些模型

用户可以通过访问Stability AI的GitHub仓库获取Stable Video Diffusion模型的代码，以及在Hugging Face页面上找到本地模型执行所需的权重。使用前，用户需要接受明确提出的允许和限制应用的条款。

当前，允许的使用场景包括为设计、教育或创意工具生成艺术作品。然而，据Stability AI称，生成关于人物或事件的真实再现不在此次项目的范围内。

在网络安全中应用自然语言处理：逐步指南

人工智能：智胜意识形态战场

Most people like

Clockwise

225K

利用AI优化日历，以实现更灵活、高效的工作安排。

人工智能 AI产品描述生成器

iCustoms

9.1K

全球企业在海关申报方面面临着诸多挑战。随着国际贸易的不断增长，海关流程的复杂性也随之增加。为了提高申报效率和准确性，越来越多的企业开始采用人工智能解决方案。这些创新技术不仅能简化海关申报流程，还能有效降低错误率，确保与全球合规标准的对接。本文将探讨如何利用人工智能提高全球企业的海关申报效率，推动贸易顺畅进行。

报关 AI CRM助手

Stable Diffusion在线

5.8K

使用Stable Diffusion模型将文本转化为逼真的图像。这种方法快速高效且易于使用，非常适合初学者和专业人士。

AI 文本生成图像工具 AI艺术生成器

Photo AI

690.1K

使用Photo AI轻松创建惊艳的图像，无需任何相机。通过人工智能技术，您可以生成逼真的照片，同时节省摄影师的费用。

AI照片生成器 AI角色生成器

Find AI tools in YBX