谷歌全新多模態 AI 影片創作工具:探索 VideoPoet!

就在昨天,我思考著 Google 是否能成功首次推出 AI 產品。隨著 VideoPoet 的揭曉,答案似乎已經浮現。本週,Google 推出了 VideoPoet,這是一個由 Google Research 的 31 位研究人員團隊創造的開創性大型語言模型(LLM),旨在處理各種視頻生成任務。

這款 LLM 的開發值得特別注意。根據團隊的預評審研究論文,“大多數現有模型使用基於擴散的方法,這被廣泛認為是視頻生成的領跑者。這些模型通常從預訓練的圖像模型(如 Stable Diffusion)開始,生成每幀的高保真圖像,並進一步微調以增強幀之間的時間一致性。”

相比之下,Google 的研究團隊選擇了基於轉換器架構的 LLM,這一架構通常用於文本和代碼生成(例如,ChatGPT、Claude 2、Llama 2)。不過,VideoPoet 專門為視頻創作進行了訓練。

預訓練的重要性

VideoPoet 的成功源於對 2.7 億個視頻和超過 10 億個來自公共互聯網的文本-圖像對的廣泛預訓練。這些數據被轉換為模型可利用的文本嵌入、視覺標記和音頻標記。

結果相當令人印象深刻,尤其與面向消費者的先進視頻生成工具如 Runway 和 Pika(後者是 Google 的投資)相比。

更長且質量更高的視頻剪輯,動作更流暢

Google Research 宣稱,其基於 LLM 的方法能夠生成更長的高質量視頻剪輯,解決當前擴散視頻生成 AI 面臨的限制,這些 AI 往往難以保持長序列中的連貫動作。正如團隊成員 Dan Kondratyuk 和 David Ross 在 Google Research 部落格中所提到的,“目前視頻生成的一個瓶頸是產生連貫的大動作的能力。許多領先模型要么生成小動作,要么在嘗試大動作時產生明顯的瑕疵。”

然而,VideoPoet 能夠在多達 16 幀的視頻中提供更大且更一致的運動。它還從一開始就提供多樣化的功能,如模擬各種拍攝角度、視覺風格,甚至生成新的音頻來搭配視覺內容。重要的是,它可以處理多種輸入類型—文本、圖像和視頻—作為提示。

通過將這些視頻生成功能整合到一個 LLM 中,VideoPoet 消除了對多個專門工具的需求,提供了一個完整的一體化視頻創作解決方案。

事實上,Google Research 團隊進行的一項調查顯示,觀眾更偏愛 VideoPoet 生成的剪輯。當人類將剪輯與擴散模型(如 Source-1、VideoCrafter 和 Phenaki)進行逐一比較時,VideoPoet 的視頻始終受到青睞。

根據 Google Research 部落格的報導,“平均而言,評價者選擇了 24%–35% 的 VideoPoet 示例作為與提示更符合的,對比其他模型僅為 8%–11%。此外,41%–54% 的 VideoPoet 示例被評為擁有更有趣的運動,而其他模型僅有 11%–21%。”

專為垂直視頻設計

Google Research 將 VideoPoet 定制為默認生成縱向(豎屏)視頻,以迎合像 Snapchat 和 TikTok 等平台所受歡迎的移動視頻觀眾。

展望未來,Google Research 旨在擴展 VideoPoet 的功能,以支持“任意到任意”的生成任務,包括文本到音頻和音頻到視頻,進一步推進視頻和音頻生成的潛力。

目前,VideoPoet 尚未公開使用,我們正等待 Google 釋出相關信息。在此之前,期待感持續升溫,我們期待看到它如何與市場上的其他工具相抗衡。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles