Stability AI,广受赞誉的文本生成图像AI工具Stable Diffusion的创造者,现在预览其最新模型——Stable Cascade。这一新模型旨在比其前身引入更灵活高效的图像生成方法。
自2022年Stable Diffusion首次发布以来,Stability AI不断优化这一核心技术。2023年7月SDXL 1.0的发布标志着一个重要里程碑,而2023年11月的SDXL Turbo更新进一步增强了其性能。
Stable Cascade的创新架构
Stable Cascade采用了与SDXL截然不同的体系结构,优化了图像生成效率。该模型基于“Würstchen”架构,融合了先进技术以提升性能和准确性。根据Würstchen研究摘要,“我们的潜在扩散技术学习一种紧凑而详细的语义表示,指导扩散过程,为其提供比典型语言基础潜在表示更丰富的指导,同时显著降低计算需求。”
模块化三阶段架构
与“Stable Diffusion”的单一大型模型不同,Stable Cascade具有包括A、B和C三个阶段的模块化架构。这一设计提高了训练效率,并提供了更大的自定义能力。
- C阶段:将文本提示转换为紧凑的24×24像素潜在表示。
- A和B阶段:将这些潜在表示解码为全分辨率图像。
这种将文本到图像生成与图像解码分离的方式,使训练更加高效,Stability AI报告称,在微调C阶段时成本降低了16倍,相较于单一的Stable Diffusion更为经济。
直接偏好优化以提升质量
Stable Cascade具备直接偏好优化(DPO)的潜力,专注于 refining 模型以更好地符合人类偏好。Stability AI的创始人兼首席执行官Emad Mostaque最近表示:“Stable Cascade的输出在DPO的帮助下将会更加出色,且可以通过涡轮化(turbofying)和量化等技术进一步提升。这一研究预览模型出箱即成,能够生成出色的图像和文本,且通过ComfyUI流有进一步改进的机会。”
卓越的文本生成能力
在内部评估中,Stable Cascade超越了其他领先的AI艺术模型,包括SDXL,在图像质量和提示对齐方面表现优异。尽管包含比SDXL多1.4亿个参数,Stable Cascade却具备更快的推理时间。该模型的压缩潜在空间通过其多阶段方法高效生成复杂图像。
值得注意的是,Stable Cascade在图像内生成连贯文本的排版能力显著提升,而这一点正是SDXL的弱项。竞争技术如Ideogram和OpenAI的DALL-E 3在文本生成上有所进展,但结果存在差异。有限的测试表明Stable Cascade在生成准确文本方面表现一致,尽管完美尚未实现。
通过Stable Cascade探索更多可能
Stable Cascade不仅提升了文本生成能力,还支持图像变体生成,在保持风格与构图的同时生成新版本图像。该模型通过施加噪声,实现有效的图像到图像翻译,基于输入生成新图像。通过ControlNet的集成,Stable Cascade提供了先进的功能,如图像修补和超分辨率。
目前,Stable Cascade正处于研究预览阶段,仅供非商业用途,用户可以通过GitHub上的代码获取访问权限。