Stability AI,著名的 Stable Diffusion 文本轉圖像系統的開發者,推出了其首個創新視頻生成模型——Stable Video Diffusion。這款尖端生成式 AI 模型可以將文本提示轉換為動態視頻。用戶只需輸入像「沙漠中火箭升空」或「海浪撞擊岸邊」這樣的短語,Stable Video Diffusion 就能將這些描述生動呈現。
除了文本提示,該模型還能從靜態圖像創建視頻。Stable Video Diffusion 的研究團隊專門為高解析度的圖像轉視頻合成而設計,並具備多視角合成功能,允許動畫師從單一物體生成多個攝影角度。這一功能對於構建虛擬現實 (VR) 和擴增實境 (AR) 應用中的沉浸式 3D 環境的開發者尤其重要。
如何訪問 Stable Video Diffusion
目前,Stable Video Diffusion 僅供研究用途。開發者表示,該模型「目前不打算用於現實世界或商業應用」。他們專注於收集與安全性和性能相關的反饋,以便未來進一步完善模型。
有興趣探索 Stable Video Diffusion 的研究人員可以在 GitHub 上找到源代碼,而本地模型執行所需的權重則托管在 Hugging Face。該模型提供兩種不同的圖像轉視頻選項,分別可以生成14幀和25幀,並支持每秒3至30幀的自定義幀率。
初步研究顯示,與 Pika Labs 和 Runway 的競爭模型相比,Stable Video Diffusion 在用戶偏好上獲得了良好的評價,凸顯了其在視頻生成領域的潛力。
令人興奮的是,用戶可以註冊候補名單,以獲取即將推出的網頁介面的訪問權限,該介面展示了 Stable Video Diffusion 在教育、市場營銷和娛樂等領域的實際應用。欲表達對這一創新體驗的興趣,用戶應在聯絡表單的下拉菜單中選擇「Stable Video – 等待名單」。
Stability AI 持續推動生成科技的邊界,為視頻生成和創意內容創作開闢了新的可能性。隨著模型的演變,其在利用豐富視覺敘事的領域中展現了廣泛的應用潛力。