經過兩個月的預覽,Stability AI 興奮地推出其次世代的 Stable Diffusion 3 生成式 AI 模型,並同步推出創新的聊天機器人技術的早期預覽,名為“Stable Assistant”。
Stable Diffusion 3 於二月首次宣布為預覽版,現在已可通過 Stability AI 開發者平台的 API 存取。此 API 使得將模型強大的文本轉圖像生成能力輕鬆整合至各種服務和應用程序成為可能。此外,還推出了一個增強性能的變體——Stable Diffusion 3 Turbo。
透過 Stable Diffusion 3,Stability AI 運用先進的機器學習技術,顯著提升圖像和排版質量。API 發布的主要重點是確保該模型已經具備生產環境的準備。
“我們已實施多項安全措施以防止 SD3 的濫用,並根據用戶反饋不斷完善這些措施,”Stability AI 的首席技術官兼臨時聯合首席執行官 Christian Laforte 表示。
開放模型即將推出
雖然 Stable Diffusion 3 現在可透過 API 存取,但開放模型尚未發布,卻正在路上。“我們將在模型公開發布之前不斷改進它,”Laforte 確認道。“根據我們對開放生成式 AI 的承諾,我們將很快使模型權重可供自我託管,透過 Stability AI 會員計劃。”
這一會員策略於十二月首次公布,旨在為公司建立一個新的營收模型。
Fireworks 合作夥伴關係提升 API 性能
Stability AI 與 Fireworks AI 的合作將提升 Stable Diffusion 3 API 的性能。針對生成式 AI 應用的 API 推理優化—特別是在大規模運用方面—可能相當複雜,但 Fireworks AI 在機器學習編譯器方面的專業知識將幫助解決這些挑戰。
“Fireworks AI 是業界領先的 ML 編譯器專家,對於優化我們模型的推理速度至關重要。”Laforte 指出。“與他們合作使我們能夠提供市場上最快且最可靠的企業級 API 平台。”
Stable Diffusion 3 的創新
Stable Diffusion 的核心是一種擴散模型,並有多項創新增強其能力。特別是,Multimodal Diffusion Transformer (MMDiT) 架構的引入提升了文本理解和排版準確性。
對於 SD3-Turbo 模型,該模型採用一種名為潛在對抗擴散蒸餾 (LADD) 的新方法。“基本上,SD3-Turbo 的速度是 SD3 的十倍,同時生成的圖像質量幾乎不相上下,”Laforte 解釋道。
推出 Stable Assistant
除了新穎的 Stable Diffusion 模型外,Stability AI 還推出了 Stable Assistant 的早期測試版,這是一個基於公司文本和圖像生成技術的聊天機器人。類似於 OpenAI 的 ChatGPT Plus 與 DALL-E 3 的整合,Stable Assistant 可以透過對話生成圖像。
Laforte 將 Stable Assistant 描述為一個用戶友好的聊天機器人,結合了 Stable Diffusion 3 和近期發布的 Stable LM 2 12B 的能力。這個工具不僅能從對話中生成圖像,還能提供資訊性回應,協助寫作項目,以及通過相關圖像增強內容。
“Stable Assistant 旨在成為我們的多模態聊天機器人,無需技術專業知識即可訪問我們的所有模型和 API 服務,”Laforte 表示。“我們打算不斷增強其功能,加入圖像編輯,並整合來自其他模態的模型,包括視頻、3D、音頻和代碼。”