Stability AI近日发布了其下一代文本生成图像AI模型——Stable Diffusion3.0(Stable Diffusion 3.0)的早期预览。这一更新经过一年的持续改进,展现了图像生成技术越来越高的复杂性和质量。自7月份推出的SDXL版本大幅提升了基础模型的表现,现今公司力求实现更大的飞跃。
Stable Diffusion3.0专注于提高图像质量和性能,尤其在处理多主题提示生成图像方面表现突出。其中一项显著改进在于排版,成功解决了之前的弱点,通过生成图像中准确一致的拼写,这一进步对于与DALL-E 3、Ideogram和Midjourney等竞争对手一较高下至关重要。Stability AI提供的Stable Diffusion3.0拥有多种模型尺寸,参数范围从800M到8B不等。
此次更新标志着一个重要转变——不仅是对之前模型的改进,而是基于新架构的全面重构。Stability AI首席执行官Emad Mostaque表示:“Stable Diffusion3是一个扩散变换器,是一种与OpenAI最新的Sora模型相似的新架构。它是真正的原始Stable Diffusion的继承者。”
向扩散变换器和流匹配的转变预示着图像生成技术的新纪元。Stability AI此前对多种技术进行了尝试,最近预览了Stable Cascade,该模型利用Würstchen架构提升性能和准确性。相比之下,Stable Diffusion3.0采用扩散变换器,这是对其前身的重大改进。
Mostaque解释道:“Stable Diffusion之前没有使用变换器。”这一架构是许多生成AI进展的基础,以往大多用于文本模型,而扩散模型则在图像生成中占主导地位。扩散变换器(DiTs)的引入优化了计算资源的使用,提升了性能,通过用变换器替代传统的U-Net骨干网络来处理潜在图像补丁。
此外,Stable Diffusion3.0还得益于流匹配,这是一种新颖的连续标准化流(CNFs)训练方法,有效地建模复杂的数据分布。研究人员表示,采用条件流匹配(CFM)结合最优传输路径进行训练,能够实现更快的训练速度、更高效的采样以及相比传统扩散方法显著提升的性能。
该模型在排版方面显示出明显进展,使得生成图像的叙事更加连贯、风格更加丰富。Mostaque指出:“这一改进得益于变换器架构和附加的文本编码器。现在可以生成完整句子和一致的风格。”
虽然Stable Diffusion 3.0初步展现为一个文本生成图像的AI,但它也为未来的创新奠定了基础。Stability AI计划在未来几个月扩展至3D和视频生成能力。Mostaque总结道:“我们创造开放模型,以便于根据需求进行使用和调整。这一系列不同规模的模型将支撑我们下一代视觉解决方案的开发,包括视频、3D等。”