Stability AI 發布Stable Video Diffusion模型研究預覽,用於創意應用

隨著 OpenAI 歡迎 Sam Altman 回歸,其競爭對手在人工智慧 (AI) 領域的努力也逐漸加強。繼 Anthropic 發布 Claude 2.1 以及 Adobe 收購 Rephrase.ai 之後,Stability AI 宣布推出 Stable Video Diffusion,正式進軍日益受歡迎的視頻生成領域。

介紹 Stable Video Diffusion

Stable Video Diffusion (SVD) 目前僅供研究使用,由兩個先進的 AI 模型組成—SVD 和 SVD-XT,這兩者能夠從靜態圖片生成短視頻片段。Stability AI 宣稱這些模型產出的視頻質量高,可以與現有的 AI 視頻生成器競爭甚至超越。

這兩個模型都作為研究預覽的開源項目,計劃納入用戶反饋,以增強未來商業應用的功能。

了解 Stable Video Diffusion

根據 Stability AI 的部落格,SVD 和 SVD-XT 是潛在擴散模型,接受單一靜態圖片來生成 576 x 1024 的視頻片段。這些模型可以以每秒三到三十幀的速度生成內容,但視頻長度限制在四秒內。SVD 模型可從一張靜態圖片生成 14 幀,而 SVD-XT 模型則最多可生成 25 幀。

為了開發 Stable Video Diffusion,Stability AI 使用約 6 億個樣本訓練了其基礎模型,這些樣本來自精選的視頻數據集,隨後在包含最多一百萬個片段的小型高質量數據集上進行了微調。這樣的訓練使得模型能夠執行文本到視頻和圖片到視頻的生成任務。

雖然訓練數據來自於公開可用的研究數據集,但具體來源未明確說明。

值得注意的是,SVD 的白皮書指出,此模型可進一步微調以支持多視角合成,允許從單一圖片獲得物體的一致視圖。

Stable Video Diffusion 的潛在應用涵蓋廣告、教育和娛樂等多個領域。

輸出質量與限制

在外部評估中,SVD 的輸出質量顯示出色,超越了 Runway 和 Pika Labs 的主要封閉文本到視頻模型。然而,Stability AI 承認這些模型仍處於早期階段,經常在真實感方面遇到困難,生成的視頻有時缺乏動態,並且面部或人物的生成準確度往往不如預期。

未來,公司計劃對兩個模型進行改進,解決目前的限制,並引入如文本提示支持和文本渲染等新的功能。他們強調此次發布是開放探索的邀請,以識別並解決問題,包括潛在偏見,以確保安全部署。

Stability AI 設想在此基礎上構建多種模型,類似於Stable Diffusion周圍的生態系統。他們也邀請用戶註冊即將推出的網頁體驗,將實現文本到視頻的生成,不過具體的可用時間尚不明確。

如何使用這些模型

要探索 Stable Video Diffusion 模型,用戶可以訪問 Stability AI 的 GitHub 倉庫,並在 Hugging Face 頁面上獲取本地模型執行所需的權重。僅在接受相關條款之後,才允許使用。

目前,允許的使用案例包括為設計生成藝術作品及創意工具。然而,根據 Stability AI 的說法,生成事實性的人物或事件陳述超出了本項目的範疇。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles