更大並不總是代表更好,特別是在使用商用硬體運行生成式 AI 模型時。這一原則強調了 Stability AI 最新推出的產品:Stable Diffusion 3 Medium。作為 Stability AI 的旗艦模型,Stable Diffusion 在文本生成圖像方面表現出色。Stable Diffusion 3 的預覽於 2 月 22 日發布,公共 API 使用則將於 4 月 17 日開始。
全新的 Stable Diffusion Medium 設計為一個較小但功能強大的模型,能在消費級 GPU 上高效運行。這使得 Stable Diffusion 3 成為尋求有效圖像生成技術的資源有限的用戶和組織的理想選擇。
Stable Diffusion Medium 可通過 API 和 Discord 上的 Stable Artisan 服務進行測試。此外,模型權重可在 Hugging Face 上以非商業用途訪問。
隨著 Stable Diffusion Medium 的推出,最初版本現稱為 Stable Diffusion 3 (SD3) Large,擁有 80 億個參數。相比之下,SD3 Medium 擁有 20 億個參數。Stability AI 的聯合 CEO Christian Laforte 表示:「與 SD3 Large 不同,SD3 Medium 更小,且能在消費硬體上高效運行。」
運行 Stable Diffusion Medium,使用者僅需 5GB 的 GPU VRAM,這使其可以在多種消費PC和高端筆記本電腦上運行。儘管這是最低要求,Stability AI 建議使用 16GB GPU VRAM,以獲得最佳性能,這雖然合理,但對某些筆記本電腦來說可能是個挑戰。
儘管體積較小,SD3 Medium 仍具備與 SD3 Large 相媲美的卓越性能。Laforte 強調,SD3 Medium 在真實感、提示遵循、排版、資源效率和細調方面表現優異。他表示:「SD3 Medium 匹配了用戶今天所欣賞的 SD3 Large API 的能力。」
用戶可以期待 SD3 產生高度真實的圖像輸出,因為其 16 通道變分自編碼器 (VAE) 提供了比以往模型更豐富的細節。SD3 亦展現出卓越的自然語言提示遵循能力,包括在圖像構圖中的空間認知。
該模型的細調能力使其高度可適應,並高效地捕捉細調數據集中的細節。改進的排版是 SD3 的另一個重大增強,並延續至 SD3 Medium。
SD3 Medium 的突出特點是其資源效率。Laforte 指出:「這款擁有 20 億參數的模型因其較小的尺寸和模塊化設計,在不犧牲性能的情況下減少了計算需求。這使得 SD3 Medium 成為在資源管理至關重要的環境中的理想選擇。」