一組國際研究者研發出名為 Live2Diff 的創新人工智慧系統,能夠將實時視頻流轉化為風格化內容,幾乎實時完成。該技術在高端消費硬體上以每秒16幀的速度處理視頻,應用前景有望改變娛樂業和增強現實體驗。
Live2Diff 是上海人工智慧實驗室、邁克斯·普朗克信息學研究所及南洋理工大學科學家的合作成果。這是首次成功將單向注意力模型應用於專為實時直播處理設計的視頻擴散模型。
研究者在arXiv上發表的論文中詳細介紹了他們的工作,指出:“我們展示了 Live2Diff,這是設計單向時間注意力視頻擴散模型以特別針對實時直播視頻轉換的首次嘗試。”
這一新穎方法解決了視頻人工智慧的一個關鍵挑戰。傳統模型依賴雙向注意力來檢視未來幀,這限制了實時處理。而 Live2Diff 則採用單向方法,通過將每幀與其前幀及少數初始暖身幀相關聯,來保持時間一致性,無需依賴未來數據。
Live2Diff 展示了其能力,實時將人臉的網絡攝像頭畫面轉換為動漫風格角色。全面的實驗結果顯示,該系統在時間平滑性和效率上表現優異,並通過量化指標和用戶研究得到了驗證。
上海人工智慧實驗室的首席作者陳凱博士表示:“我們的方法確保了時間一致性和流暢性,而無需依賴未來幀。這為實時視頻轉換和處理開辟了新可能性。”
Live2Diff 的影響深遠。在娛樂行業,它有望重新定義直播和虛擬活動,讓演出者即時轉變為動畫角色,或使用實時的超級英雄形象進行體育直播。對於內容創作者和影響者而言,這一技術提供了一種新穎的創意表達方式,適用於直播或視頻通話。
在增強現實(AR)和虛擬現實(VR)中,Live2Diff 透過實時風格轉換提升沉浸式體驗。這種進步有望無縫地串聯真實世界與虛擬環境,對遊戲、虛擬旅遊及建築設計等專業領域產生影響,實時可視化風格化環境能夠輔助決策。
儘管 Live2Diff 展現了激動人心的可能性,但也引發了倫理和社會擔憂。操控實時視頻流的能力可能導致誤導性內容或深度偽造的產生,模糊現實與數字表現之間的界限。隨著技術的進步,開發者、政策制定者和倫理學者之間的合作對於制定負責任的使用準則至關重要。
雖然完整的 Live2Diff 代碼將很快發布,研究團隊已將其論文公開,並打算開源其實現。這一舉措預計將激發實時視頻人工智慧的進一步創新。
隨著人工智能在媒體處理上不斷進步,Live2Diff 標誌著一個重要里程碑。其以近乎瞬時的速度轉換實時視頻流的能力,可能為未來的直播事件廣播、下一代視頻會議等新應用鋪平道路,推動實時人工智慧驅動的視頻操作邊界的發展。