微軟最新的AI視頻模型推進軌跡生成技術

AI公司正在激烈競爭,以推進視頻生成技術。近幾個月,主要參與者如Stability AI和Pika Labs已推出能夠從文本和圖像提示創建視頻的模型。在這些進展的基礎上,微軟推出了新的模型DragNUWA,旨在提供更好的視頻制作控制能力。

DragNUWA通過採用基於軌跡的生成方法來增強傳統的文本和圖像輸入方式,允許用戶沿特定路徑操控對象或整個視頻幀。這一創新促進了在視頻創作過程中對語義、空間和時間方面的精確控制,同時確保高品質的輸出。 微軟已開放模型的權重和演示,邀請社群進行實驗。然而,這仍然是一個研究性項目,尚未完全成熟。

微軟DragNUWA的獨特之處是什麼?

AI驅動的視頻生成通常依賴於文本、圖像或軌跡輸入,但這些方法常常難以提供詳細的控制。例如,僅僅依賴文本和圖像可能會忽略視頻中關鍵的細微動作細節,且語言可能對抽象概念產生歧義。

2023年8月,微軟的AI團隊推出了DragNUWA,這是一個開放域的擴散基礎視頻生成模型,整合了圖像、文本和軌跡輸入,使視頻控制更加精確。用戶可以定義特定的文本、圖像和軌跡,以管理結果視頻中的各種元素,例如相機運動和物體運動。

例如,用戶可以上傳一幅在水面上的船的圖片,配上文本提示“在湖中航行的船”,並提供船隻運動的指令。這樣的輸入生成了指定航行路徑的船隻視頻,軌跡澄清了運動細節,語言規劃了未來出現的物體,圖像則區分了主體。

DragNUWA的實際運行

DragNUWA的早期版本1.5已在Hugging Face上發布,利用Stability AI的Stable Video Diffusion模型根據定義的路徑對圖像進行動畫處理。隨著這項技術的發展,它有望簡化視頻生成和編輯。想像一下,只需一行簡單的指令即可轉換背景、動畫化圖像和指導運動。

AI愛好者對這一進展感到興奮,認為這是創意AI的一個重要里程碑。然而,該模型在實際應用中的表現仍有待觀察。初步測試表明,DragNUWA能夠準確執行相機運動和沿各種拖曳軌跡的物體運動。

“DragNUWA支持複雜的曲線軌跡,使物體能沿著精細路徑移動。它還支持變量長度的軌跡,允許更大的運動幅度。此外,DragNUWA能夠同時控制多個物體的軌跡。據我們所知,尚無其他視頻生成模型能實現如此的軌跡控制,這突顯了DragNUWA推進視頻生成技術的潛力,”微軟研究人員在他們的論文中表示。

這項工作為不斷擴展的AI視頻研究領域做出了貢獻。最近,Pika Labs因其類似ChatGPT的文本轉視頻介面而受到關注,該介面可生成具有各種自定義選項的高品質短視頻。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles