生成式人工智慧藝術迅速成為新技術中最迷人且受歡迎的應用之一,吸引了數百萬用戶使用如Stable Diffusion和Midjourney等平台。OpenAI最近將其DALL-E 3影像生成模型整合進廣泛使用的ChatGPT服務中,讓用戶生成影像變得前所未有的簡單。只需輸入描述,用戶即可目睹AI算法瞬間將其想法轉化為視覺藝術。
然而,在快速變化的世界中,即使是等待幾秒鐘的影像生成也可能顯得繁瑣。本週,線上AI藝術社群對一項名為LCM-LoRA(潛在一致性模型-低秩適應)的突破性機器學習技術熱議不已。該技術由清華大學和AI程式碼分享平台HuggingFace的研究人員共同開發,使得即時生成AI藝術成為可能。
這在實務上意味著什麼呢?不妨參考在X和LinkedIn上分享的AI藝術家視頻,親眼見證其效果。透過LCM-LoRA,用戶現在可以在描述性文本旁邊簡單地勾勒形狀或火柴人圖畫,AI藝術創作應用如Krea.AI和Fal.AI將瞬間生成新作品。隨著用戶在數位畫布上調整形狀和圖畫,影像幾乎可以即時改變。
如果網站在流量增加期間保持穩定,可以親自嘗試Fal.AI。LCM-LoRA技術適用於2D影像和3D資產,使藝術家能快速創建沉浸式環境,應用於擴增實境(AR)、虛擬實境(VR)、電子遊戲,甚至可能的電影製作,極大加速創作流程並降低成本。
“所有事物都將改變,”一位創業者及前Google AI工程師在LinkedIn上表達了這一感受,並得到了許多AI藝術社群成員的共鳴。另一位用戶在X上評論道,“全新一代的生成式AI即將揭曉。”沃頓商學院的Ethan Mollick教授表示,得益於這項技術,“我們將很快看到許多新的用戶體驗。”
LCM-LoRA是什麼?其運作原理為何?早期的LCM-LoRA在應用程式中的演示確實引人注目,顯示出生成式AI在視覺藝術領域的潛在轉折點。
根據研究人員的說法,LCM-LoRA是一個“通用的無需訓練的加速模組”,可以集成到各種已微調的Stable Diffusion模型中。簡單來說,它是一個能加快將文本或影像轉化為新AI生成藝術作品過程的算法,利用受到廣泛使用的開放原始碼Stable Diffusion模型及其修改版本。
LCM-LoRA實現這一點的方式是減少AI模型為將源文本或影像轉化為高品質影像而必須執行的“取樣步驟”。這意味著它使Stable Diffusion模型能在更少的計算資源下更快速地運行,從而實現即時引人注目的輸出。
LCM-LoRA的“通用”特性意味著它與依賴Stable Diffusion的不同應用兼容。至於是否能調整為如OpenAI的DALL-E 3或Midjourney等專屬模型,尚待觀察。我們已聯繫LCM-LoRA論文的作者之一以獲取更多見解,並會隨著資訊的增補更新本文章。