近期,由Picsart AI研究團隊及其他開發的AI視頻模型StreamingT2V,吸引了業界的廣泛關注。這一模型在視頻生成方面樹立了新標杆,能夠生成長達2分鐘(1,200幀)的视频。它在技術上超越了備受推崇的Sora模型,並以其免費的開源特性為開源生態系統注入了新活力。
StreamingT2V的推出標誌著視頻生成領域的一次重要突破。迄今為止,大多數模型僅能生成幾秒到一分鐘的視頻,而Sora在生成60秒視頻方面傑出。StreamingT2V不僅將視頻生成延長至2分鐘,還有潛力實現幾乎無限制的時長,為視頻創作開啟了前所未有的可能性。
其成功歸功於先進的自回歸架構。StreamingT2V旨在生成豐富且動態的長視頻,同時保持時間一致性和高質量畫面。通過引入條件注意模塊(CAM)和外觀保持模塊(APM),該模型有效地解決了現有文本到視頻擴散模型在生成長時長視頻時出現的質量下降和表現僵化的問題。
CAM作為短期記憶組件,通過注意機制細化視頻生成,確保視頻片段之間的自然過渡。而APM則作為長期記憶,從初始視頻片段提取高級場景和物體特徵,以確保生成過程中的一致性。此外,StreamingT2V使用高解析度文本生成技術進一步提升視頻質量。
目前,StreamingT2V已在GitHub上開源,並在Hugging Face平台上提供免費試用。雖然用戶可能會因伺服器負載而面臨一些等待時間,但輸入文本和圖片提示生成視頻的過程依然令人振奮。Hugging Face平台展示了幾個成功的案例,充分表現了StreamingT2V在視頻生成方面的驚人潛力。
StreamingT2V的推出不僅代表著視頻制作技術的一次飛躍,還為開源社區提供了一個強大的工具,促進相關技術的持續發展。隨著StreamingT2V等創新不斷演進並受到青睞,我們或將見證高質量、長時長的AI生成視頻在電影制作、遊戲開發和虛擬世界創建等多個領域的日益普及。開源社區在這一技術演進中將扮演至關重要的角色,推動進一步的發展和突破。