Stability AI 發布 Stable Cascade:影像生成的新時代
Stability AI,這個廣受讚譽的 Stable Diffusion 文字轉圖片生成 AI 的創造者,現正預覽其最新模型:Stable Cascade。這款新的影像生成模型旨在引入比前代更靈活高效的方法。
自 2022 年首度推出 Stable Diffusion 以來,Stability AI 持續對這項核心技術進行改進。2023 年 7 月推出的 SDXL 1.0 標誌著一個重要的里程碑,而在 2023 年 11 月的 SDXL Turbo 更新則進一步提升了性能。
Stable Cascade 的創新架構
Stable Cascade 採用與 SDXL 不同的架構,優化了影像生成的效率。該模型基於 Würstchen 架構,融合了先進技術以提升性能和準確度。根據 Würstchen 的研究摘要,“我們的潛在擴散技術學習了一種緊湊而詳盡的語義表示,指導擴散過程,提供比典型語言基礎的潛在表示更豐富的指導,同時顯著減少計算需求。”
模組化的三階段架構
與 Stable Diffusion 的單一大型模型相比,Stable Cascade 採用三階段模組化架構,包含階段 A、B 和 C。這種設計提高了訓練效率並提供了更大的自訂空間。
- 階段 C:將文字提示轉換為緊湊的 24×24 像素潛在向量。
- 階段 A 和 B:將這些潛在向量解碼為高解析度的完整影像。
這種將文字轉影像生成與影像解碼分開的設計,使得訓練更加高效,Stability AI 報告指出,在微調階段 C 時的成本降低了 16 倍,相較於單一的 Stable Diffusion 模型。
直接偏好優化提升品質
Stable Cascade 支持直接偏好優化(DPO),專注於調整模型以更好地符合人類偏好。Stability AI 的創辦人及 CEO Emad Mostaque 最近表示:“Stable Cascade 的輸出在 DPO 的加持下將更加出色,同時可以通過 turbofying 和量化等技術進一步提升。這款研究預覽模型從一開始便能產生卓越的影像和穩固的文字,並透過 ComfyUI 流程提供改進的機會。”
優秀的文字生成能力
在內部評估中,Stable Cascade 在影像品質和提示對應方面超越了其他領先的 AI 藝術模型,包括 SDXL。值得注意的是,Stable Cascade 擁有 14 億個參數比 SDXL 還多,但推論時間卻更快。該模型的壓縮潛在空間使其能夠透過多階段方法高效生成複雜影像。
特別是 Stable Cascade 在影像中生成連貫文字的排版能力有所改善,而 SDXL 在這方面表現不佳。雖然 Ideogram 和 OpenAI 的 DALL-E 3 等競爭技術近期在文字生成方面有所進展,但結果各異。有限的測試顯示,Stable Cascade 持續能夠從提示中準確產生文字,儘管完美尚未達成。
探索 Stable Cascade 的更多可能
Stable Cascade 不僅提升了文字生成的能力,還支援影像變異,保持風格和構圖的同時生成新版本的影像。該模型透過應用噪音有效執行影像轉換,生成根據輸入的新影像。搭配 ControlNet 的整合,提供了如內畫和超解析度等先進功能。
目前,Stable Cascade 正處於研究預覽階段,僅供非商業使用,並通過 GitHub 上的代碼提供存取。