本週,AI視頻生成領域隨著Pyramid Flow的推出而持續擴展。這款開源模型能以令人驚艷的速度生成高達10秒的高品質視頻片段。Pyramid Flow由北京大學、北京郵電大學,以及以著名的Kling AI視頻生成器聞名的快手科技的合作團隊開發,採用了創新的多階段生成方法,主要以低解析度生成視頻,並在最終輸出時保留全解析度版本。
Pyramid Flow能以僅56秒的時間創建一個5秒384p的視頻,其性能可媲美領先模型。然而,Runway的Gen-3 Alpha Turbo仍然保持速度之冠,經常在不足一分鐘內生成視頻,某些測試時間僅介於10到20秒之間。雖然我們尚未獨立測試Pyramid Flow,但創建者分享的示範視頻顯示出極為逼真的視覺效果,解析度可與專有系統相媲美,您可以在其GitHub專案頁面上觀看示例。
Pyramid Flow設計直觀,便於下載與使用,包括商業應用,成為Runway的Gen-3 Alpha、Luma的Dream Machine、Kling和Haulio等收費競爭對手的實力替代選擇,後者可能需支付可觀的年度訂閱費用。在競爭激烈的AI視頻服務市場中,Pyramid Flow承諾為開發者、藝術家和內容創作者提供高效靈活的先進視頻生成解決方案。
新技術:金字塔流匹配
AI視頻生成需要大量計算資源,通常需要多個模型處理不同階段,這會使訓練變得複雜。Pyramid Flow引入了金字塔流匹配技術,顯著減少計算負擔,同時保持視覺質量。該方法通過系統性的“金字塔”階段完成視頻生成,僅在最後一步使用全解析度。
這一方法的詳細內容發表於一篇題為《金字塔流匹配:高效視頻生成建模》的預審論文,於2024年10月8日提交給開放獲取期刊arXiv。研究團隊包括來自北京大學及快手科技的楊進、孫志誠、李寧源、許昆及其他成員。
該論文闡述了如何在不同階段優化視頻生成,促進更快的訓練收斂,使Pyramid Flow能以更少的處理產生更多樣本。具體來說,與傳統擴散模型相比,該模型的token數量減少了四倍,從而提升了訓練效率。
Pyramid Flow可以生成5至10秒的768p解析度視頻,幀率為24fps,訓練所用的開源數據集包括LAION-5B、CC-12M、SA-1B、WebVid-10M和OpenVid-1M,總計約1000萬段單次視頻。然而,對於這些數據集的來源仍然存在疑慮,其中一些,如LAION-5B,被指控未經許可含有受版權保護的材料。Runway也面臨法律問題,因類似的版權侵權行為被藝術家起訴。
開源與商業使用
Pyramid Flow在MIT授權下發佈,允許廣泛使用,包括商業項目、修改和再分發,前提是保留版權聲明。這使得它對希望整合AI視頻功能而不產生專有模型所帶來的高昂成本的開發者和公司來說,成為具有吸引力的選擇。
然而,儘管Pyramid Flow是一個前景可觀的工具,但目前尚不具備一些專有模型中的先進功能。例如,Runway的Gen-3 Alpha提供對攝影角度和人類手勢等元素的詳細控制,而Pyramid Flow尚未複製這些功能。此外,因其相對較新的推出,生態系統尚未像某些競爭對手那樣成熟。
AI視頻生成的未來
隨著AI視頻生成市場的演變,Pyramid Flow的出現標誌著向更可訪問的開源替代方案的轉變,這些方案能夠與現有的專有解決方案競爭。Pyramid Flow以卓越的視頻質量打破了傳統模型的束縛,預計將成為創作者和開發者首選的工具。
展望未來,行業相關人士將密切關注Pyramid Flow的發展軌跡和潛在增強,因為所有參與者都在這個動態領域中競爭技術優勢及用戶獲取。同時,OpenAI的Sora在2024年初的展示中,仍主要限於一小部分初期用戶的測試。