Stability AI 擴大了其生成式 AI 模型的產品線,推出了 Stable Video 3D(SV3D)。
如其名所示,SV3D 是一款生成式 AI 視頻工具,旨在渲染 3D 視頻。基於Stable Video技術,該技術允許用戶從圖片或文本提示中創建短視頻,SV3D 進一步提升了視頻的功能,支持新穎視圖合成和 3D 生成,顯著改善了之前的 Stable Video Diffusion 模型。
SV3D 為視頻生成技術增添了重要的深度,能夠從單一輸入圖像創建和轉換多視角 3D 網格。該模型現在可供商業用途,需訂閱 Stability AI 專業會員,每月收費 20 美元,適合年收入低於 100 萬美元的創作者和開發者。對於非商業用途,用戶可以從 Hugging Face 下載模型權重。
這裡有一段我生成的視頻演示。雖然可能會有輕微的失真,但視頻中的物體形態在鏡頭旋轉時依然保持一致與穩定。
目標應用案例:遊戲創作與電子商務
公司在針對新模型的部落格中指出:「透過配合攝影機路徑的 Stable Video Diffusion 圖片轉視頻模型,Stable Video 3D 能夠生成物體的多視角視頻。」
「Stable Video 3D 對於遊戲領域的 3D 資產生成特別重要,」Stability AI 的首席研究員 Varun Jampani 表示。「它還能生成 360 度環繞視頻,提升電子商務中的沉浸式購物體驗。」
從 Stable Zero123 到 SV3D
Stability AI 以其 Stable Diffusion 文本轉圖生成模型而聞名,包括 SDXL 和Stable Diffusion 3.0,目前處於早期研究預覽階段。開源的 Stable Diffusion 1.5 模型為許多 AI 圖像生成和視頻平台(如 Runway 和 Leonardo AI)提供支持。
在 2023 年 12 月,Stability AI 推出了 Stable Zero123 模型,為 3D 圖像創建引入了新功能。Stability AI 創始人兼 CEO Emad Mostaque 表示,該模型是專注於 3D 技術的一系列模型中的第一個。
SV3D 與 Stable Zero123 的 3D 生成方式有所不同。
Jampani 解釋道:「Stable Video 3D 是我們早期模型 Stable Zero123 的繼任者和增強版。這個新模型利用一個新穎的視圖合成網絡,能夠從單一輸入生成多個新視圖圖像。」
相較於僅依賴 Stable Diffusion 一次輸出一個圖像的 Stable Zero123,SV3D 利用 Stable Video Diffusion 模型同時生成多個新視角,從而在單一圖像生成上實現更高的質量和更有效的 3D 網格生成。
任何角度下的一致視圖
Stability AI 的一篇研究論文探討了通過潛變視頻擴散從單一圖像生成 3D 視覺效果的技術。報告指出:「近期在 3D 生成方面的進展使 2D 生成模型適應新視圖合成(NVS)和 3D 優化。」然而,許多現有方法在有限視角和不一致輸出方面面臨挑戰。
SV3D 的主要優勢在於其能提供一致的多視角圖像,從不同角度呈現一致的視點。該研究論文強調了這一進步,指出:「與之前在有限視角和不一致性方面掙扎的做法不同,Stable Video 3D 能夠從任何角度提供一致的視圖,並有出色的泛化能力。」
除了增強視圖合成,SV3D 還致力於優化 3D 網格。其多視角一致性允許直接從輸出生成高質量的 3D 網格。
Stability AI 在公告中表示:「Stable Video 3D 利用其多視角一致性來優化 3D 神經輻射場(NeRF)和網格表示,顯著提升生成的 3D 網格質量。」
兩種變體:SV3Du 和 SV3Dp
SV3D 提供兩個變體,各自滿足不同的使用案例。
SV3D_u 從單一圖像輸入生成環繞視頻,無需攝影機條件。攝影機條件涉及額外輸入,通常是與攝影機視角相關的圖像或參數,指導生成過程。
相對而言,SV3D_p 支持單一圖像和環繞視圖,使得用戶能夠根據指定的攝影機路徑創建 3D 視頻。