谷歌全新多模態 AI 影片創作工具：探索 VideoPoet！

Home AI新聞谷歌全新多模態 AI 影片創作工具：探索 VideoPoet！

Updated on 十二月 20 2023

就在昨天，我思考著 Google 是否能成功首次推出 AI 產品。隨著 VideoPoet 的揭曉，答案似乎已經浮現。本週，Google 推出了 VideoPoet，這是一個由 Google Research 的 31 位研究人員團隊創造的開創性大型語言模型（LLM），旨在處理各種視頻生成任務。

這款 LLM 的開發值得特別注意。根據團隊的預評審研究論文，“大多數現有模型使用基於擴散的方法，這被廣泛認為是視頻生成的領跑者。這些模型通常從預訓練的圖像模型（如 Stable Diffusion）開始，生成每幀的高保真圖像，並進一步微調以增強幀之間的時間一致性。”

相比之下，Google 的研究團隊選擇了基於轉換器架構的 LLM，這一架構通常用於文本和代碼生成（例如，ChatGPT、Claude 2、Llama 2）。不過，VideoPoet 專門為視頻創作進行了訓練。

預訓練的重要性

VideoPoet 的成功源於對 2.7 億個視頻和超過 10 億個來自公共互聯網的文本-圖像對的廣泛預訓練。這些數據被轉換為模型可利用的文本嵌入、視覺標記和音頻標記。

結果相當令人印象深刻，尤其與面向消費者的先進視頻生成工具如 Runway 和 Pika（後者是 Google 的投資）相比。

更長且質量更高的視頻剪輯，動作更流暢

Google Research 宣稱，其基於 LLM 的方法能夠生成更長的高質量視頻剪輯，解決當前擴散視頻生成 AI 面臨的限制，這些 AI 往往難以保持長序列中的連貫動作。正如團隊成員 Dan Kondratyuk 和 David Ross 在 Google Research 部落格中所提到的，“目前視頻生成的一個瓶頸是產生連貫的大動作的能力。許多領先模型要么生成小動作，要么在嘗試大動作時產生明顯的瑕疵。”

然而，VideoPoet 能夠在多達 16 幀的視頻中提供更大且更一致的運動。它還從一開始就提供多樣化的功能，如模擬各種拍攝角度、視覺風格，甚至生成新的音頻來搭配視覺內容。重要的是，它可以處理多種輸入類型—文本、圖像和視頻—作為提示。

通過將這些視頻生成功能整合到一個 LLM 中，VideoPoet 消除了對多個專門工具的需求，提供了一個完整的一體化視頻創作解決方案。

事實上，Google Research 團隊進行的一項調查顯示，觀眾更偏愛 VideoPoet 生成的剪輯。當人類將剪輯與擴散模型（如 Source-1、VideoCrafter 和 Phenaki）進行逐一比較時，VideoPoet 的視頻始終受到青睞。

根據 Google Research 部落格的報導，“平均而言，評價者選擇了 24%–35% 的 VideoPoet 示例作為與提示更符合的，對比其他模型僅為 8%–11%。此外，41%–54% 的 VideoPoet 示例被評為擁有更有趣的運動，而其他模型僅有 11%–21%。”

專為垂直視頻設計

Google Research 將 VideoPoet 定制為默認生成縱向（豎屏）視頻，以迎合像 Snapchat 和 TikTok 等平台所受歡迎的移動視頻觀眾。

展望未來，Google Research 旨在擴展 VideoPoet 的功能，以支持“任意到任意”的生成任務，包括文本到音頻和音頻到視頻，進一步推進視頻和音頻生成的潛力。

目前，VideoPoet 尚未公開使用，我們正等待 Google 釋出相關信息。在此之前，期待感持續升溫，我們期待看到它如何與市場上的其他工具相抗衡。

探索 Midjourney V6：全新升級的提示功能與圖像內文字特性揭曉！

探索Apple最新的人工智慧研究如何徹底改變您的iPhone體驗

Most people like

Tripo 3D

577.3K

瞬間將單一圖像轉換為驚豔的 3D 資產！這一創新過程使您能夠通過無縫地將平面視覺轉換為動態三維模型，來提升您的創意項目。無論您是藝術家、遊戲開發者還是內容創作者，這項技術都能提升您的工作流程，以快速且精準的方式將您的想法變為現實。

3D 建模 AI Product Description Generator

Tars

163.2K

Tars是一個創新的平台，旨在利用先進的人工智慧聊天機器人提升客戶參與度和支持。通過簡化互動，Tars幫助企業提供個性化的協助並改善用戶體驗。

聊天機器人平台 AI Chatbot

Quick Creator

162.4K

Quick Creator 是一個由 AI 驅動的平台，旨在輕鬆創建部落格和著陸頁，同時強調 SEO 的最佳實踐。

人工智慧驅動的內容創作 AI Content Generator

Userdesk

快速在幾分鐘內創建根據您的數據定制的AI聊天機器人。

人工智慧 AI Chatbot

Find AI tools in YBX