在今年的 Google I/O 會議上,Google 發布了其最新的 AI 媒體創作引擎——Veo 和 Imagen 3。Veo 能夠生產高品質的 1080p 影片,而 Imagen 3 則是從文本生成圖像的最新框架。雖然這些產品可能不會革命性地改變行業,但它們幫助 Google 在與 OpenAI 的 Sora 影片模型和 DALL-E 3 的競爭中保持優勢。
Google 宣稱,Veo 擁有對自然語言和視覺語義的“深刻理解”,能根據用戶描述生成超過一分鐘的影片。它也掌握了與電影製作和視覺技術相關的概念,例如延時攝影,這些已成為 AI 影片生成模型的基本特徵。
為了展示 Veo 的能力,Google 與唐納德·格洛佛(Donald Glover)及其創意工作室 Gilga 合作,製作了一段宣傳影片,內容包括從文本描述生成的敞篷車公路旅行和帆船場景。根據 Google 的說法,Veo 在模擬現實物理現象和渲染高清畫面方面超越了以往的模型。格洛佛在影片中提到:“每個人都應該成為導演;講述彼此的故事能增進我們的理解。”
儘管觀眾是否會接受 AI 生成的影片仍然不確定——這主要源於對機器重現人類藝術的好奇心——但這並未阻止 Google 和 OpenAI 推廣他們的工具。Veo 現在已在 Google 的 VideoFX 工具中提供給特定創作者,並計畫在 YouTube Shorts 等平台推出。一旦整合進 YouTube Shorts,將顯著提升 Google 在 TikTok 競爭中的地位。
關於 Imagen 3,Google 認為這是公司用於從文本生成圖像的“最高品質”模型,能創造“真實且栩栩如生”的圖像,同時最小化瑕疵。其真正的挑戰在於與 DALL-E 3 的比較,Google 表示 Imagen 3 在處理文本和較長提示時更為智能。
此外,Google 還與音樂藝術家 Wyclef Jean 和 Bjorn 合作測試其音樂 AI 沙盒工具,旨在幫助創作歌曲和節拍。儘管目前展示的內容較為簡短,但已展現出一些引人注目的例子。
從日出到人類老化,AI 正變得越來越智能。Google 最新的媒體創作工具正在朝這一方向發展。隨著數十億的投資在 AI 領域,Google 目標在於引領下一次計算技術的突破。這些技術未來在提升生活或創造感人藝術方面的潛力,仍然是一個重要的觀察話題。