Stable Diffusion 3.0 發布了創新的擴散架構，為下一代文本轉圖像的人工智慧創作帶來全新體驗。

Home AI新聞 Stable Diffusion 3.0 發布了創新的擴散架構，為下一代文本轉圖像的人工智慧創作帶來全新體驗。

Stability AI 最近推出了其下一代文本到圖像生成 AI 模型 Stable Diffusion 3.0 的早期預覽。這次更新經過一年的迭代改進，展現了圖像生成的日益複雜和高品質。上個月的 SDXL 版本顯著提升了基礎模型，而如今公司旨在追求更大的進步。

Stable Diffusion 3.0 專注於提升圖像質量和性能，尤其是在從多主題提示生成圖像方面。一個顯著的改進是排版，解決了之前的弱點，能夠在生成的圖像中提供準確且一致的拼寫。這些改進至關重要，因為競爭對手如 DALL-E 3、Ideogram 和 Midjourney 近期也重視這一特性。Stability AI 提供多種模型大小的 Stable Diffusion 3.0，參數範圍從 800M 到 8B。

此次更新標誌著一個重大變革——不僅是對之前模型的增強，而是基於新架構的完全改革。Stability AI 的首席執行官 Emad Mostaque 表示：“Stable Diffusion 3 是一種擴散變壓器，這種新的架構類似於 OpenAI 最近的 Sora 模型。它是真正的原始 Stable Diffusion 的繼承者。”

向擴散變壓器和流匹配的轉變預示著圖像生成的新時代。Stability AI 探索了多種技術，最近預覽的 Stable Cascade 採用了 Würstchen 架構來提升性能和準確性。相比之下，Stable Diffusion 3.0 使用擴散變壓器，這是對其前身的顯著轉變。

Mostaque 解釋道：“Stable Diffusion 以前並沒有變壓器。”這種架構是許多生成 AI 進展的基礎，過去主要用於文本模型，而擴散模型則主導了圖像生成。引入擴散變壓器（DiTs）優化了計算資源的使用，通過用變壓器替代傳統的 U-Net 主幹，來增強性能，專注於潛在圖像片段。

此外，Stable Diffusion 3.0 還受益於流匹配，這是一種新穎的連續正規化流（CNF）訓練方法，能夠有效建模複雜數據分佈。研究人員指出，採用條件流匹配（CFM）結合最佳運輸路徑，能夠實現更快的訓練、更高效的取樣以及比傳統擴散方法更好的性能。

該模型在排版方面展現了明顯的進步，使得生成的圖像可以擁有更連貫的敘事和風格選擇。Mostaque 指出：“這一改進得益於變壓器架構和額外的文本編碼器。完整的句子和連貫的風格現在都可以實現。”

雖然 Stable Diffusion 3.0 首次展現作為文本到圖像的 AI，但它同時也是未來創新的基石。Stability AI 計畫在未來幾個月擴展到 3D 和視頻生成能力。Mostaque 總結道：“我們創造了可用於各種需求的開放模型。這一系列的模型將為我們的下一代視覺解決方案的發展提供支持，包括視頻、3D 及更多。”

谷歌因多次發生“覺醒”不準確性而暫停Gemini的人員生成功能

生物識別盜竊：攻擊者竊取個人資料，侵入受害者銀行帳戶