Stable Diffusion的未来：深入探索Stability AI即将推出的文本到图像生成模型——Stable Cascade

Home AI News CN Stable Diffusion的未来：深入探索Stability AI即将推出的文本到图像生成模型——Stable Cascade

Stability AI，广受赞誉的文本生成图像AI工具Stable Diffusion的创造者，现在预览其最新模型——Stable Cascade。这一新模型旨在比其前身引入更灵活高效的图像生成方法。

自2022年Stable Diffusion首次发布以来，Stability AI不断优化这一核心技术。2023年7月SDXL 1.0的发布标志着一个重要里程碑，而2023年11月的SDXL Turbo更新进一步增强了其性能。

Stable Cascade的创新架构

Stable Cascade采用了与SDXL截然不同的体系结构，优化了图像生成效率。该模型基于“Würstchen”架构，融合了先进技术以提升性能和准确性。根据Würstchen研究摘要，“我们的潜在扩散技术学习一种紧凑而详细的语义表示，指导扩散过程，为其提供比典型语言基础潜在表示更丰富的指导，同时显著降低计算需求。”

模块化三阶段架构

与“Stable Diffusion”的单一大型模型不同，Stable Cascade具有包括A、B和C三个阶段的模块化架构。这一设计提高了训练效率，并提供了更大的自定义能力。

- C阶段：将文本提示转换为紧凑的24×24像素潜在表示。

- A和B阶段：将这些潜在表示解码为全分辨率图像。

这种将文本到图像生成与图像解码分离的方式，使训练更加高效，Stability AI报告称，在微调C阶段时成本降低了16倍，相较于单一的Stable Diffusion更为经济。

直接偏好优化以提升质量

Stable Cascade具备直接偏好优化（DPO）的潜力，专注于 refining 模型以更好地符合人类偏好。Stability AI的创始人兼首席执行官Emad Mostaque最近表示：“Stable Cascade的输出在DPO的帮助下将会更加出色，且可以通过涡轮化（turbofying）和量化等技术进一步提升。这一研究预览模型出箱即成，能够生成出色的图像和文本，且通过ComfyUI流有进一步改进的机会。”

卓越的文本生成能力

在内部评估中，Stable Cascade超越了其他领先的AI艺术模型，包括SDXL，在图像质量和提示对齐方面表现优异。尽管包含比SDXL多1.4亿个参数，Stable Cascade却具备更快的推理时间。该模型的压缩潜在空间通过其多阶段方法高效生成复杂图像。

值得注意的是，Stable Cascade在图像内生成连贯文本的排版能力显著提升，而这一点正是SDXL的弱项。竞争技术如Ideogram和OpenAI的DALL-E 3在文本生成上有所进展，但结果存在差异。有限的测试表明Stable Cascade在生成准确文本方面表现一致，尽管完美尚未实现。

通过Stable Cascade探索更多可能

Stable Cascade不仅提升了文本生成能力，还支持图像变体生成，在保持风格与构图的同时生成新版本图像。该模型通过施加噪声，实现有效的图像到图像翻译，基于输入生成新图像。通过ControlNet的集成，Stable Cascade提供了先进的功能，如图像修补和超分辨率。

目前，Stable Cascade正处于研究预览阶段，仅供非商业用途，用户可以通过GitHub上的代码获取访问权限。

AI 如何增强 XDR，简化和整合技术堆栈

OpenAI董事会主席创办AI初创公司，致力于提升客户体验