最近,阿里巴巴團隊推出了一個創新的AI視頻生成框架,名為Tora。這個尖端框架整合了文本、視覺和軌跡信息,並運用了突破性的軌跡引導擴散變壓器(DiT)技術。因此,Tora顯著提升了視頻內容的生成和控制能力,在視覺特效和虛擬現實等領域提供了前所未有的創作自由。
Tora框架由三個基本組件組成:軌跡提取器(TE)、時空DiT模塊和運動引導融合模塊(MGF)。TE使用先進的3D視頻壓縮網絡,將輸入的軌跡數據有效編碼為分層的時空運動片段,為隨後的視頻生成提供了堅實的基礎。同時,MGF將這些運動片段與DiT模塊結合,確保生成的視頻與預定的軌跡緊密對齊,使運動效果變得平滑自然。
值得注意的是,Tora框架支持生成長達204幀、解析度為720P的視頻,使用者可以精確控制視頻的時長、寬高比和解析度,滿足多樣化的創作需求。實驗結果表明,Tora不僅保持高運動保真度,還精確模擬了物理運動規律,提供了更真實、身臨其境的視覺體驗。
阿里巴巴團隊將Tora比喻為視頻生成的“魔法畫筆”,使得用戶可以輕鬆操控物體的運動軌跡,輕鬆創作複雜的視頻。這一設計理念大幅降低了視頻製作的門檻,賦予視覺特效藝術家、廣告商和虛擬現實開發者等專業人士一個強大的創作工具,有潛力推動各自領域的創新。
隨著Tora的正式發布,阿里巴巴團隊再次展示了其在人工智能領域的創新實力。隨著技術的持續發展,Tora將為全球視頻創作和分發帶來更多驚喜和變革。