Stable Diffusion的下一步是什麼？穩定級聯：探索 Stability AI 即將推出的文本到圖像生成模型

Home AI新聞 Stable Diffusion的下一步是什麼？穩定級聯：探索 Stability AI 即將推出的文本到圖像生成模型

Stability AI 發布 Stable Cascade：影像生成的新時代

Stability AI，這個廣受讚譽的 Stable Diffusion 文字轉圖片生成 AI 的創造者，現正預覽其最新模型：Stable Cascade。這款新的影像生成模型旨在引入比前代更靈活高效的方法。

自 2022 年首度推出 Stable Diffusion 以來，Stability AI 持續對這項核心技術進行改進。2023 年 7 月推出的 SDXL 1.0 標誌著一個重要的里程碑，而在 2023 年 11 月的 SDXL Turbo 更新則進一步提升了性能。

Stable Cascade 的創新架構

Stable Cascade 採用與 SDXL 不同的架構，優化了影像生成的效率。該模型基於 Würstchen 架構，融合了先進技術以提升性能和準確度。根據 Würstchen 的研究摘要，“我們的潛在擴散技術學習了一種緊湊而詳盡的語義表示，指導擴散過程，提供比典型語言基礎的潛在表示更豐富的指導，同時顯著減少計算需求。”

模組化的三階段架構

與 Stable Diffusion 的單一大型模型相比，Stable Cascade 採用三階段模組化架構，包含階段 A、B 和 C。這種設計提高了訓練效率並提供了更大的自訂空間。

- 階段 C：將文字提示轉換為緊湊的 24×24 像素潛在向量。

- 階段 A 和 B：將這些潛在向量解碼為高解析度的完整影像。

這種將文字轉影像生成與影像解碼分開的設計，使得訓練更加高效，Stability AI 報告指出，在微調階段 C 時的成本降低了 16 倍，相較於單一的 Stable Diffusion 模型。

直接偏好優化提升品質

Stable Cascade 支持直接偏好優化（DPO），專注於調整模型以更好地符合人類偏好。Stability AI 的創辦人及 CEO Emad Mostaque 最近表示：“Stable Cascade 的輸出在 DPO 的加持下將更加出色，同時可以通過 turbofying 和量化等技術進一步提升。這款研究預覽模型從一開始便能產生卓越的影像和穩固的文字，並透過 ComfyUI 流程提供改進的機會。”

優秀的文字生成能力

在內部評估中，Stable Cascade 在影像品質和提示對應方面超越了其他領先的 AI 藝術模型，包括 SDXL。值得注意的是，Stable Cascade 擁有 14 億個參數比 SDXL 還多，但推論時間卻更快。該模型的壓縮潛在空間使其能夠透過多階段方法高效生成複雜影像。

特別是 Stable Cascade 在影像中生成連貫文字的排版能力有所改善，而 SDXL 在這方面表現不佳。雖然 Ideogram 和 OpenAI 的 DALL-E 3 等競爭技術近期在文字生成方面有所進展，但結果各異。有限的測試顯示，Stable Cascade 持續能夠從提示中準確產生文字，儘管完美尚未達成。

探索 Stable Cascade 的更多可能

Stable Cascade 不僅提升了文字生成的能力，還支援影像變異，保持風格和構圖的同時生成新版本的影像。該模型透過應用噪音有效執行影像轉換，生成根據輸入的新影像。搭配 ControlNet 的整合，提供了如內畫和超解析度等先進功能。

目前，Stable Cascade 正處於研究預覽階段，僅供非商業使用，並通過 GitHub 上的代碼提供存取。

如何透過AI增強XDR，精簡及整合技術堆疊

OpenAI 董事會主席創辦AI初創公司旨在提升顧客體驗

Most people like

KWHero

22.5K

提升您的 Google 搜尋排名，選擇 KWHero 精心打造的 SEO 內容。

搜索引擎優化 AI Content Generator

CleverSpinner

24.9K

在數位時代，創造獨特且引人入勝的內容對於在網上脫穎而出至關重要。AI內容重寫器、旋轉器和人性化工具可將現有文章轉化為新穎且吸引人的作品。通過提升可讀性並注入人性化元素，這些工具不僅改善了內容的獨創性，還提高了其搜索引擎可見度（SEO）。無論您是博主、市場營銷人員還是企業主，利用AI驅動的內容解決方案可以簡化您的寫作過程，同時有效吸引觀眾的注意力。

AI 文章重寫 AI Content Detector

Ideogram AI

Ideogram 是壹款免費使用的人工智能工具，可生成逼真的圖像、海報、徽標等。

API 存取 Text to Image

Zivy

7.6K

透過我們的人工智慧工具徹底改變您的生產力，該工具專為優先處理工作場所的信息和任務而設計。輕鬆管理您的工作負荷，確保最重要的任務和溝通始終位於最前面，讓您保持專注和高效。發現利用先進算法來簡化日常操作並提升職業環境中團隊合作的好處。

工作場域溝通 AI Email Assistant

Find AI tools in YBX