微軟最新的AI視頻模型推進軌跡生成技術

Home AI新聞微軟最新的AI視頻模型推進軌跡生成技術

AI公司正在激烈競爭，以推進視頻生成技術。近幾個月，主要參與者如Stability AI和Pika Labs已推出能夠從文本和圖像提示創建視頻的模型。在這些進展的基礎上，微軟推出了新的模型DragNUWA，旨在提供更好的視頻制作控制能力。

DragNUWA通過採用基於軌跡的生成方法來增強傳統的文本和圖像輸入方式，允許用戶沿特定路徑操控對象或整個視頻幀。這一創新促進了在視頻創作過程中對語義、空間和時間方面的精確控制，同時確保高品質的輸出。微軟已開放模型的權重和演示，邀請社群進行實驗。然而，這仍然是一個研究性項目，尚未完全成熟。

微軟DragNUWA的獨特之處是什麼？

AI驅動的視頻生成通常依賴於文本、圖像或軌跡輸入，但這些方法常常難以提供詳細的控制。例如，僅僅依賴文本和圖像可能會忽略視頻中關鍵的細微動作細節，且語言可能對抽象概念產生歧義。

2023年8月，微軟的AI團隊推出了DragNUWA，這是一個開放域的擴散基礎視頻生成模型，整合了圖像、文本和軌跡輸入，使視頻控制更加精確。用戶可以定義特定的文本、圖像和軌跡，以管理結果視頻中的各種元素，例如相機運動和物體運動。

例如，用戶可以上傳一幅在水面上的船的圖片，配上文本提示“在湖中航行的船”，並提供船隻運動的指令。這樣的輸入生成了指定航行路徑的船隻視頻，軌跡澄清了運動細節，語言規劃了未來出現的物體，圖像則區分了主體。

DragNUWA的實際運行

DragNUWA的早期版本1.5已在Hugging Face上發布，利用Stability AI的Stable Video Diffusion模型根據定義的路徑對圖像進行動畫處理。隨著這項技術的發展，它有望簡化視頻生成和編輯。想像一下，只需一行簡單的指令即可轉換背景、動畫化圖像和指導運動。

AI愛好者對這一進展感到興奮，認為這是創意AI的一個重要里程碑。然而，該模型在實際應用中的表現仍有待觀察。初步測試表明，DragNUWA能夠準確執行相機運動和沿各種拖曳軌跡的物體運動。

“DragNUWA支持複雜的曲線軌跡，使物體能沿著精細路徑移動。它還支持變量長度的軌跡，允許更大的運動幅度。此外，DragNUWA能夠同時控制多個物體的軌跡。據我們所知，尚無其他視頻生成模型能實現如此的軌跡控制，這突顯了DragNUWA推進視頻生成技術的潛力，”微軟研究人員在他們的論文中表示。

這項工作為不斷擴展的AI視頻研究領域做出了貢獻。最近，Pika Labs因其類似ChatGPT的文本轉視頻介面而受到關注，該介面可生成具有各種自定義選項的高品質短視頻。

64.1K

探索Sexting AI的變革力量，這是您的虛擬伴侶，旨在促進真實的連結。體驗引人入勝的對話和富有意義的互動，模糊數位與個人關係之間的界限。

情色短信應用程式 AI Character

4.8M

Glasp 是一款創新的社交網路標註工具，旨在幫助用戶輕鬆地整理和分享他們的標註內容。透過改變您與在線資訊的互動方式，Glasp 使您能夠在有效管理標註的同時，輕鬆地與他人建立聯繫。

社交網頁標註工具 AI Knowledge Base

39.3K

輕鬆的專案規劃和快速的開發—盡在一個平台上體驗。享受無縫整合，提升生產力並簡化您的工作流程。

專案規劃 AI Analytics Assistant

18.3K

以人工智慧創新顛覆包裝設計

包裝設計 AI Content Generator

Find AI tools in YBX