知名於其 Stable Diffusion 文本轉圖像生成器的 Stability AI,最近推出了最新的基礎模型——Stable Video Diffusion (SVD)。該模型現已在公司的開發者平台和應用程式介面 (API) 上提供,允許第三方開發者將其整合進他們的應用程式、網站和軟體解決方案中。
「這一新增功能為不同領域量身定制的先進視頻模型提供了程式化訪問。我們的目標是為開發者贈予一種有效的方法,讓他們能輕鬆將先進的视频生成技術整合到自己的產品中,」該公司在一篇博客文章中表示。
雖然此發布為希望創建 AI 生成視頻的企業提供了一個強大的工具,但同時也引發了一些擔憂。最近,Stability AI 因使用包括不當內容的 LAION-5B 數據集而受到關注,該數據集隨後已被移除。
儘管面臨挑戰,Stability 的 SVD API 在視頻質量上仍具競爭優勢。根據該公司在 LinkedIn 的一則貼文,SVD 模型能在41秒內生成2秒長的視頻,包括25個生成幀和24個 FILM 插值幀。雖然這對於長期視頻活動可能不夠,但對於創建 GIF 和特定的訊息(包括迷因)來說,則相當有用。
SVD 與 Runway 和 Pika Labs 的其他視頻生成模型競爭,後者最近獲得了5500萬美元的資金並推出了一個新的視頻編輯平台。然而,與 Stability AI 不同的是,這些選項並未通過 API 提供,使用者需直接在其網站或應用程式上訪問。
此外,Stability AI 計劃為其視頻生成器推出一個面向用戶的網頁體驗,鼓勵用戶加入等待名單以獲得早期訪問。
理解 Stable Video Diffusion
Stable Video Diffusion 在一個月前的研究預覽中首次亮相,允許用戶從靜態圖像(如 JPG 和 PNG)創建 MP4 錄影。初步樣本顯示,該模型雖然能產生長達兩秒的短片,但仍處於開發階段,其持續時間較某些研究導向的模型短。
不過,將多個短片結合起來可生成較長視頻。Stability AI 聲稱,這模型在廣告、營銷、電視與電影及遊戲等多個領域都有所助益。
重要的是,最新的模型能以多種佈局和解析度生成視頻,包括 1024×576、768×768 和 576×1024。它還具備動作強度控制和基於種子的生成,提供可重複和隨機輸出。
應對爭議
雖然 Stable Video Diffusion 的推出為企業整合視頻功能提供了簡便的方式,但同時也凸顯了 Stability AI 在面對持續有關其訓練數據來源的爭議中確保市場地位的承諾。
最近,斯坦福互聯網觀察所的一份報告揭示,LAION-5B 數據集中的不當素材促使稱為創建熱門 AI 模型的資料被移除。此外,該公司還因涉嫌在創建 Stable Diffusion 時未獲得許可而收購版權圖片,面臨集體訴訟。
目前,Stability AI 的開發者平台 API 提供對所有模型的訪問,包括 Stable Diffusion XL 文本轉圖像生成器和新的 SVD 模型。該公司還提供會員選項,允許客戶本地託管這些模型。