Stable Diffusion 3.0 發布了創新的擴散架構,為下一代文本轉圖像的人工智慧創作帶來全新體驗。

Stability AI 最近推出了其下一代文本到圖像生成 AI 模型 Stable Diffusion 3.0 的早期預覽。這次更新經過一年的迭代改進,展現了圖像生成的日益複雜和高品質。上個月的 SDXL 版本顯著提升了基礎模型,而如今公司旨在追求更大的進步。

Stable Diffusion 3.0 專注於提升圖像質量和性能,尤其是在從多主題提示生成圖像方面。一個顯著的改進是排版,解決了之前的弱點,能夠在生成的圖像中提供準確且一致的拼寫。這些改進至關重要,因為競爭對手如 DALL-E 3、Ideogram 和 Midjourney 近期也重視這一特性。Stability AI 提供多種模型大小的 Stable Diffusion 3.0,參數範圍從 800M 到 8B。

此次更新標誌著一個重大變革——不僅是對之前模型的增強,而是基於新架構的完全改革。Stability AI 的首席執行官 Emad Mostaque 表示:“Stable Diffusion 3 是一種擴散變壓器,這種新的架構類似於 OpenAI 最近的 Sora 模型。它是真正的原始 Stable Diffusion 的繼承者。”

向擴散變壓器和流匹配的轉變預示著圖像生成的新時代。Stability AI 探索了多種技術,最近預覽的 Stable Cascade 採用了 Würstchen 架構來提升性能和準確性。相比之下,Stable Diffusion 3.0 使用擴散變壓器,這是對其前身的顯著轉變。

Mostaque 解釋道:“Stable Diffusion 以前並沒有變壓器。”這種架構是許多生成 AI 進展的基礎,過去主要用於文本模型,而擴散模型則主導了圖像生成。引入擴散變壓器(DiTs)優化了計算資源的使用,通過用變壓器替代傳統的 U-Net 主幹,來增強性能,專注於潛在圖像片段。

此外,Stable Diffusion 3.0 還受益於流匹配,這是一種新穎的連續正規化流(CNF)訓練方法,能夠有效建模複雜數據分佈。研究人員指出,採用條件流匹配(CFM)結合最佳運輸路徑,能夠實現更快的訓練、更高效的取樣以及比傳統擴散方法更好的性能。

該模型在排版方面展現了明顯的進步,使得生成的圖像可以擁有更連貫的敘事和風格選擇。Mostaque 指出:“這一改進得益於變壓器架構和額外的文本編碼器。完整的句子和連貫的風格現在都可以實現。”

雖然 Stable Diffusion 3.0 首次展現作為文本到圖像的 AI,但它同時也是未來創新的基石。Stability AI 計畫在未來幾個月擴展到 3D 和視頻生成能力。Mostaque 總結道:“我們創造了可用於各種需求的開放模型。這一系列的模型將為我們的下一代視覺解決方案的發展提供支持,包括視頻、3D 及更多。”

Most people like

Find AI tools in YBX