Stability AI发布了其生成性AI模型的最新产品——Stable Video 3D(SV3D)。顾名思义,SV3D是一种生成AI视频工具,专门用于渲染3D视频。它基于基础的Stable Video技术,使用户能够从图像或文本提示创建短视频,并在此基础上增强了视频功能,实现了新颖的视图合成和3D生成,比之前的Stable Video Diffusion模型有了显著改进。
SV3D为视频生成技术增加了重要深度,使用户能够从单一输入图像创建和转换多视角的3D网格。现在,该模型可供商业使用,只需每月20美元的Stability AI专业会员费用,适用于年收入低于100万美元的创作者和开发者。对于非商业用途,用户可以从Hugging Face下载模型权重。
SV3D的主要应用场景包括游戏制作和电子商务。Stability AI在关于新模型的博客中提到:“通过调整我们的Stable Video Diffusion图像到视频模型实现摄影轨迹条件,Stable Video 3D能够生成物体的多视角视频。”Stability AI的首席研究员Varun Jampani表示:“Stable Video 3D在游戏行业生成3D资产中尤其有价值,同时它还可以生成360度轨道视频,提升电子商务的沉浸式购物体验。”
从Stable Zero123到SV3D
Stability AI以其Stable Diffusion文本转图像生成AI模型而闻名,包括SDXL和当前处于早期研究预览阶段的Stable Diffusion3.0。开源的Stable Diffusion1.5模型为许多AI图像生成和视频平台提供支撑,如Runway和Leonardo AI。
在2023年12月,Stability AI发布了Stable Zero123模型,新增了3D图像创建的功能。Stability AI的创始人兼CEO Emad Mostaque表示,这一模型是专注于3D技术系列的首个作品。
SV3D在3D生成方面采用了不同的方法,与Stable Zero123相比,Stable Video 3D不仅是其继承者,也是其增强版。Jampani进一步解释道:“这个新模型采用了一种新颖的视图合成网络,可以从单一输入生成多个新视角图像。”与依赖Stable Diffusion逐次输出单个图像的Stable Zero123不同,SV3D利用Stable Video Diffusion模型同时生成多个新视角,从而提高质量并更有效地生成3D网格。
一致的多角度视图
Stability AI的一篇研究论文探讨了如何通过潜在视频扩散从单一图像生成3D视觉效果。“近年来,3D生成中的进展使得2D生成模型适用于新视图合成和3D优化,”报告指出。然而,许多现有方法面临着有限的视角和不一致的输出问题。
SV3D的主要优势在于能够提供一致的多视角图像,使用户能够从不同角度获得连贯的视角。研究论文强调这一进展,指出:“与以往受限视角与不一致性困扰的方式不同,Stable Video 3D能够提供从任何角度的连贯视图,并具有效的泛化能力。”除了增强视图合成外,SV3D还旨在优化3D网格。其多视角一致性使得能直接从生成的输出中生成高质量的3D网格。
两种变体:SV3Du与SV3Dp
SV3D提供两种变体,分别满足不同的使用场景。SV3D_u能够从单个图像输入生成轨道视频,而无需进行摄影条件设置。摄影条件设置涉及额外输入,通常是与摄像机视角相关的图像或参数,以指导生成过程。
相对而言,SV3D_p支持单图像和轨道视角,用户可以沿着指定的摄影路径创建3D视频。