自從 OpenAI 今年初推出 Sora 生成式 AI 影片創作模型以來,鮮有競爭對手能夠媲美其真實感和質量——直到現在。 在其年度 I/O 開發者大會上,Google 宣布推出由其著名的 DeepMind 部門開發的全新生成式 AI 影片模型 Veo。 Google 描述 Veo 能夠生成「高品質、1080p 的影片片段,長度超過 60 秒」。根據 DeepMind 在 X 帳戶上的貼文,該模型能應對多種電影風格,從寫實主義和超現實主義到動畫。 在其產品頁面上,Google 表示 Veo 的目標是「讓每個人都能輕鬆進行影片製作」,無論用戶是經驗豐富的電影製作人、懷有抱負的創作者還是教育工作者。Veo 支援文字轉影片、影片轉影片和圖像轉影片的轉換。 Google 與多才多藝的藝術家 Donald Glover(即 Childish Gambino)合作,通過他的創意工作室 Gilga 測試 Veo 的新功能。 為展示 Veo 的卓越能力,DeepMind 在其 YouTube 和 X 帳戶上展示了幾個生成的影片,場景包括霓虹城市、栩栩如生的水母、騎馬的牛仔、探索宇宙的太空船以及人類互動。這些結果巧妙地模仿了實景拍攝和精心製作的動畫,均由簡單的文字提示生成。 在 Google 副總裁 Eli Collins 和高級研究主任 Douglas Eck 的博客文章中,Veo 被強調具備「前所未有的創作控制能力」,並對「延時攝影」和「空拍鏡頭」等電影術語有深刻理解。 此外,Veo 促進了對 AI 生成和用戶上傳的影片(包括預錄畫面)進行快速、高品質編輯。例如,用戶可以輸入編輯命令,例如在空拍海岸線畫面中添加皮艇,Veo 可以無縫地將其合併到原始影片中。 Veo 在保持影片幀一致性方面也表現出色,有效解決了其他模型(包括 Sora)常見的不一致情況。這得益於先進的潛在擴散變壓器,確保角色和物件保持一致且真實。 為了提升性能,Google 改進了訓練數據的標註,並利用高品質壓縮影片表示。這一優化提高了整體影片質量並減少了生成時間。 所有由 Veo 生成的影片均嵌入 SynthID,Google 的內容認證水印,以確認它們為 AI 生成的內容。 Veo 代表了 DeepMind 多年的研究,基於先前的創新如生成查詢網絡(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere。 目前,Veo 尚未公開提供。根據 OpenAI 在 Sora 上的模式,Veo 可通過 VideoFX 的私人預覽向部分創作者開放。Google 計劃最終將 Veo 的某些功能整合到 YouTube Shorts 及其他產品中。