利用AI從簡單的文字提示生成圖像,現在變得更加快速,這要歸功於Stable Diffusion模型的創造者Stability AI的技術進步。隨著本週SDXL Turbo模式的推出,用戶現在可以享受到實時圖像生成的功能,無需再等待AI處理提示。從前需要50次生成步驟的過程,現在只需一次,計算時間大幅縮短。SDXL Turbo可以在A100 GPU上僅需207毫秒即可生成512×512的圖像,這標誌著相較於早期的AI擴散模型有了顯著的改進。
SDXL Turbo的體驗類似於現代搜索引擎中的預測打字功能,但它將這種速度應用於實時圖像生成。值得注意的是,這種加速並非來自於先進的硬體,而是由一種新技術—對抗擴散蒸餾(Adversarial Diffusion Distillation, ADD)推動。Stability AI的創始人兼CEO Emad Mostaque在X(前Twitter)上表示:“使用我們的新對抗蒸餾擴散(ADD)方法,單步的Stable Diffusion XL雖然多樣性較低,但速度卻大幅提升,未來預期會有更多變體。”
SDXL—現已更快
SDXL基礎模型於七月發布,Mostaque預期這將成為未來模型的堅實基礎。Stable Diffusion與其他文本生成圖像模型,如OpenAI的DALL-E和Midjourney展開競爭。SDXL基礎模型的一個重要特徵是ControlNets,能增強對圖像組成的控制。其擁有35億個參數,能更準確地理解更廣泛的概念。SDXL Turbo在這些創新基礎上進一步提升了生成速度。
Stability AI正在遵循生成AI開發的增長趨勢:首先生成準確模型,然後優化性能,這與OpenAI在GPT-3.5 Turbo和GPT-4 Turbo中的做法相似。隨著生成AI模型的加速,一個普遍關注的問題是質量和速度之間的取舍。然而,SDXL Turbo在保持高細節的同時,幾乎沒有妥協,因此生成的圖像質量與其未加速的對應物幾乎相同。
何謂對抗擴散蒸餾(ADD)?
生成對抗網絡(GAN)在AI領域以構建快速的深度學習神經網絡而聞名。相比之下,傳統的擴散模型則利用較為逐步的過程,通常較慢。ADD結合了兩者的優勢。根據ADD研究報告,“本工作的目的是將擴散模型(DMs)出色的樣本質量與GANs固有的速度相結合。”
Stability AI研究人員開發的ADD方法旨在超越其他AI圖像生成方法,這是第一種使用基礎模型實現單步實時圖像合成的技術。通過將對抗訓練與分數蒸餾結合,ADD利用了預訓練圖像擴散模型的知識,其主要的好處是快速抽樣,同時保持高保真度和迭代優化能力。實驗顯示,ADD在生成1-4步的圖像方面顯著超越了GANs、潛在一致性模型和其他擴散蒸餾方法。
儘管Stability AI尚未認為SDXL Turbo模型已準備好商業使用,但目前已在公司Clipdrop網絡服務中提供預覽。初步測試顯示圖像生成速度快速,儘管Clipdrop測試版可能缺乏某些區分圖像風格的高級選項。代碼和模型權重也在Hugging Face上以非商業研究許可的形式提供。