Stability AI 透過 SDXL Turbo 升級提升文字轉圖片生成技術

Home AI新聞 Stability AI 透過 SDXL Turbo 升級提升文字轉圖片生成技術

Updated on 十一月 29 2023

利用AI從簡單的文字提示生成圖像，現在變得更加快速，這要歸功於Stable Diffusion模型的創造者Stability AI的技術進步。隨著本週SDXL Turbo模式的推出，用戶現在可以享受到實時圖像生成的功能，無需再等待AI處理提示。從前需要50次生成步驟的過程，現在只需一次，計算時間大幅縮短。SDXL Turbo可以在A100 GPU上僅需207毫秒即可生成512×512的圖像，這標誌著相較於早期的AI擴散模型有了顯著的改進。

SDXL Turbo的體驗類似於現代搜索引擎中的預測打字功能，但它將這種速度應用於實時圖像生成。值得注意的是，這種加速並非來自於先進的硬體，而是由一種新技術—對抗擴散蒸餾（Adversarial Diffusion Distillation, ADD）推動。Stability AI的創始人兼CEO Emad Mostaque在X（前Twitter）上表示：“使用我們的新對抗蒸餾擴散（ADD）方法，單步的Stable Diffusion XL雖然多樣性較低，但速度卻大幅提升，未來預期會有更多變體。”

SDXL—現已更快

SDXL基礎模型於七月發布，Mostaque預期這將成為未來模型的堅實基礎。Stable Diffusion與其他文本生成圖像模型，如OpenAI的DALL-E和Midjourney展開競爭。SDXL基礎模型的一個重要特徵是ControlNets，能增強對圖像組成的控制。其擁有35億個參數，能更準確地理解更廣泛的概念。SDXL Turbo在這些創新基礎上進一步提升了生成速度。

Stability AI正在遵循生成AI開發的增長趨勢：首先生成準確模型，然後優化性能，這與OpenAI在GPT-3.5 Turbo和GPT-4 Turbo中的做法相似。隨著生成AI模型的加速，一個普遍關注的問題是質量和速度之間的取舍。然而，SDXL Turbo在保持高細節的同時，幾乎沒有妥協，因此生成的圖像質量與其未加速的對應物幾乎相同。

何謂對抗擴散蒸餾（ADD）？

生成對抗網絡（GAN）在AI領域以構建快速的深度學習神經網絡而聞名。相比之下，傳統的擴散模型則利用較為逐步的過程，通常較慢。ADD結合了兩者的優勢。根據ADD研究報告，“本工作的目的是將擴散模型（DMs）出色的樣本質量與GANs固有的速度相結合。”

Stability AI研究人員開發的ADD方法旨在超越其他AI圖像生成方法，這是第一種使用基礎模型實現單步實時圖像合成的技術。通過將對抗訓練與分數蒸餾結合，ADD利用了預訓練圖像擴散模型的知識，其主要的好處是快速抽樣，同時保持高保真度和迭代優化能力。實驗顯示，ADD在生成1-4步的圖像方面顯著超越了GANs、潛在一致性模型和其他擴散蒸餾方法。

儘管Stability AI尚未認為SDXL Turbo模型已準備好商業使用，但目前已在公司Clipdrop網絡服務中提供預覽。初步測試顯示圖像生成速度快速，儘管Clipdrop測試版可能缺乏某些區分圖像風格的高級選項。代碼和模型權重也在Hugging Face上以非商業研究許可的形式提供。

亞馬遜 AWS 揭曉雄心勃勃的生成 AI 新聞，力圖與微軟競爭

亞馬遜推出 Titan AI：您需要了解的新影像生成工具所有資訊