Google 發佈 Veo：一款令人驚豔的生成式 AI 影片模型，旨在與 OpenAI 的 Sora 競爭

Home AI新聞 Google 發佈 Veo：一款令人驚豔的生成式 AI 影片模型，旨在與 OpenAI 的 Sora 競爭

自從 OpenAI 今年初推出 Sora 生成式 AI 影片創作模型以來，鮮有競爭對手能夠媲美其真實感和質量——直到現在。在其年度 I/O 開發者大會上，Google 宣布推出由其著名的 DeepMind 部門開發的全新生成式 AI 影片模型 Veo。 Google 描述 Veo 能夠生成「高品質、1080p 的影片片段，長度超過 60 秒」。根據 DeepMind 在 X 帳戶上的貼文，該模型能應對多種電影風格，從寫實主義和超現實主義到動畫。在其產品頁面上，Google 表示 Veo 的目標是「讓每個人都能輕鬆進行影片製作」，無論用戶是經驗豐富的電影製作人、懷有抱負的創作者還是教育工作者。Veo 支援文字轉影片、影片轉影片和圖像轉影片的轉換。 Google 與多才多藝的藝術家 Donald Glover（即 Childish Gambino）合作，通過他的創意工作室 Gilga 測試 Veo 的新功能。為展示 Veo 的卓越能力，DeepMind 在其 YouTube 和 X 帳戶上展示了幾個生成的影片，場景包括霓虹城市、栩栩如生的水母、騎馬的牛仔、探索宇宙的太空船以及人類互動。這些結果巧妙地模仿了實景拍攝和精心製作的動畫，均由簡單的文字提示生成。在 Google 副總裁 Eli Collins 和高級研究主任 Douglas Eck 的博客文章中，Veo 被強調具備「前所未有的創作控制能力」，並對「延時攝影」和「空拍鏡頭」等電影術語有深刻理解。此外，Veo 促進了對 AI 生成和用戶上傳的影片（包括預錄畫面）進行快速、高品質編輯。例如，用戶可以輸入編輯命令，例如在空拍海岸線畫面中添加皮艇，Veo 可以無縫地將其合併到原始影片中。 Veo 在保持影片幀一致性方面也表現出色，有效解決了其他模型（包括 Sora）常見的不一致情況。這得益於先進的潛在擴散變壓器，確保角色和物件保持一致且真實。為了提升性能，Google 改進了訓練數據的標註，並利用高品質壓縮影片表示。這一優化提高了整體影片質量並減少了生成時間。所有由 Veo 生成的影片均嵌入 SynthID，Google 的內容認證水印，以確認它們為 AI 生成的內容。 Veo 代表了 DeepMind 多年的研究，基於先前的創新如生成查詢網絡（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere。目前，Veo 尚未公開提供。根據 OpenAI 在 Sora 上的模式，Veo 可通過 VideoFX 的私人預覽向部分創作者開放。Google 計劃最終將 Veo 的某些功能整合到 YouTube Shorts 及其他產品中。

注意力外包如何在大規模下降低大型語言模型推理成本

Google 發布 Imagen 3：終極文本轉圖像模型現已進入私人預覽階段