Stable Diffusion3.0发布：革新扩散架构，开启下一代文本生成图像的人工智能时代

Home AI News CN Stable Diffusion3.0发布：革新扩散架构，开启下一代文本生成图像的人工智能时代

Stability AI近日发布了其下一代文本生成图像AI模型——Stable Diffusion3.0（Stable Diffusion 3.0）的早期预览。这一更新经过一年的持续改进，展现了图像生成技术越来越高的复杂性和质量。自7月份推出的SDXL版本大幅提升了基础模型的表现，现今公司力求实现更大的飞跃。

Stable Diffusion3.0专注于提高图像质量和性能，尤其在处理多主题提示生成图像方面表现突出。其中一项显著改进在于排版，成功解决了之前的弱点，通过生成图像中准确一致的拼写，这一进步对于与DALL-E 3、Ideogram和Midjourney等竞争对手一较高下至关重要。Stability AI提供的Stable Diffusion3.0拥有多种模型尺寸，参数范围从800M到8B不等。

此次更新标志着一个重要转变——不仅是对之前模型的改进，而是基于新架构的全面重构。Stability AI首席执行官Emad Mostaque表示：“Stable Diffusion3是一个扩散变换器，是一种与OpenAI最新的Sora模型相似的新架构。它是真正的原始Stable Diffusion的继承者。”

向扩散变换器和流匹配的转变预示着图像生成技术的新纪元。Stability AI此前对多种技术进行了尝试，最近预览了Stable Cascade，该模型利用Würstchen架构提升性能和准确性。相比之下，Stable Diffusion3.0采用扩散变换器，这是对其前身的重大改进。

Mostaque解释道：“Stable Diffusion之前没有使用变换器。”这一架构是许多生成AI进展的基础，以往大多用于文本模型，而扩散模型则在图像生成中占主导地位。扩散变换器（DiTs）的引入优化了计算资源的使用，提升了性能，通过用变换器替代传统的U-Net骨干网络来处理潜在图像补丁。

此外，Stable Diffusion3.0还得益于流匹配，这是一种新颖的连续标准化流（CNFs）训练方法，有效地建模复杂的数据分布。研究人员表示，采用条件流匹配（CFM）结合最优传输路径进行训练，能够实现更快的训练速度、更高效的采样以及相比传统扩散方法显著提升的性能。

该模型在排版方面显示出明显进展，使得生成图像的叙事更加连贯、风格更加丰富。Mostaque指出：“这一改进得益于变换器架构和附加的文本编码器。现在可以生成完整句子和一致的风格。”

虽然Stable Diffusion 3.0初步展现为一个文本生成图像的AI，但它也为未来的创新奠定了基础。Stability AI计划在未来几个月扩展至3D和视频生成能力。Mostaque总结道：“我们创造开放模型，以便于根据需求进行使用和调整。这一系列不同规模的模型将支撑我们下一代视觉解决方案的开发，包括视频、3D等。”

谷歌暂停Gemini人生成功能，因多次出现“觉醒”失实问题

生物识别盗窃案：攻击者窃取个人数据以侵入受害者银行账户