Stability AI發布 SVD 1.1:AI視頻生成的邁進
Stability AI以其日益擴展的開源AI內容創作及編程模型而聞名,現宣布對其影像轉視頻潛在擴散模型——Stable Video Diffusion(簡稱SVD)的升級。
全新 SVD 1.1 版本
新版本 SVD 1.1 是 SVD 1.0 的優化迭代,旨在生成短小的AI視頻,並改善視頻的運動效果及一致性。Stability AI首席技術官 Tom Mason 確認,SVD 1.1 現已可通過 Hugging Face 下載,此外還將納入Stability AI 的訂閱會員中,會員方案分為個人及企業等不同層級,起價為免費,最高每月20美元。商業用戶需訂閱後方可部署,而研究用途仍然開放並免費。
SVD 1.1 的增強功能
Stability AI於2023年11月首次推出兩款AI視頻生成模型:SVD可從靜態影像生成長達四秒、最多14幀的視頻;SVD-XT則為微調版本,能生成最多25幀。基於SVD-XT,新發布的 SVD 1.1 能夠生成四秒、25幀的視頻,解析度為1024×576,需提供相同大小的上下文幀。
此次升級的主要目標是提高視頻輸出的穩定性,解決早期版本中存在的光真實性不足、運動效果缺乏,以及生成真實面孔和人物等問題。SVD 1.1 希望能改善最終輸出的運動動態。
根據公司介紹,“SVD 1.1 的微調在6 FPS和運動桶ID 127下進行,以提高輸出一致性,無需調整超參數。”雖然這些設定仍可調整,但在這些固定條件之外的性能可能會有所不同。
性能與未來展望
儘管Stability AI聲稱 SVD 1.1 有所增強,但其實際效果仍需評估。該模型的 Hugging Face 頁面強調其研究導向設計,並承認某些以前版本的挑戰可能仍會存在。
除了 Hugging Face,Stable Video Diffusion模型還可通過Stability AI開發者平台的API訪問,開發者可將先進的視頻生成能力無縫整合進他們的應用中。Stable Video DiffusionAPI可生成四秒長的24 FPS MP4格式視頻,產生25幀的生成帧和插值幀。運動強度控制、多種佈局及解析度支援(包括1024×576、768×768及576×1024)均增強了其可用性。
展望未來
在2023年,Stability AI在生成AI方面取得了顯著進展,經常進行模型更新,這一趨勢似乎將持續到2024年。自2019年成立以來,該公司吸引了相當可觀的投資,包括2022年完成的1.01億美元融資輪。然而,它在AI視頻生成領域面臨來自其他競爭者的挑戰,如Runway和Pika,這兩者都通過用戶友好的網路平台贏得了市場,並提供視頻自定義和升級功能。
最近,Runway推出了多運動畫筆功能,使用戶能夠為其AI視頻中的特定區域添加動畫效果。同樣,Pika允許用戶編輯視頻中的特定區域,例如將牛的臉轉換成鴨子的臉。然而,這兩者都未為其模型提供API,限制了與第三方應用程式的整合。
隨著AI視頻生成領域的持續演變,Stability AI的SVD 1.1 標誌著一項值得關注的激動人心的進展。