Google 研究人員推出「VLOGGER」：一項讓靜態照片活起來的人工智慧技術

Home AI新聞 Google 研究人員推出「VLOGGER」：一項讓靜態照片活起來的人工智慧技術

谷歌研究人員推出了一種創新的人工智能系統——VLOGGER，能夠從一張靜態照片中生成逼真的視頻，展現個體的講話、手勢和動作。這項突破性技術運用先進的機器學習模型創造出極為真實的影像，提供了許多潛在應用，同時也引發了對深偽技術和錯誤信息的擔憂。

在名為《VLOGGER: 多模態擴散以合成人物化身》的研究論文中，團隊展示了這個AI模型如何利用一張個體的照片和一段音頻，生成視頻，讓該個體講出音頻內容，並展現相應的面部表情、頭部運動和手勢。雖然這些視頻可能存在一些瑕疵，但它們標誌著靜態圖像動畫化的重要進步。

革新合成通訊

在谷歌研究所，Enric Corona領導的團隊使用擴散模型——這是一種強大的機器學習框架，能從文本描述中生成逼真影像。通過將這些模型改編為視頻合成並在大量新數據集上進行訓練，研究人員創造出一個系統，可以生動地將照片動畫化。

作者指出：「與以往的方法不同，我們的方法不需要個別訓練，避免了臉部檢測和裁剪，能生成完整影像，並處理各種真實人類溝通所需的場景。」

成功的關鍵在於建立了一個名為MENTOR的大型數據集，其中包含超過80萬個多樣化的身份和2200小時的視頻，遠超過以往數據集。這樣的廣度使VLOGGER能夠生成不同種族、年齡、服裝、姿勢和背景的個體視頻，沒有偏見。

激動人心的應用與倫理影響

VLOGGER開創了許多令人期待的應用。研究強調了該系統能夠自動將視頻翻譯成不同語言、無縫編輯和補全視頻幀，並從單一圖像生成完整視頻的能力。

潛在應用包括演員為新表演許可詳細的3D模型、為虛擬現實（VR）和遊戲創建逼真的虛擬形象，以及開發更具表現力和吸引力的AI驅動虛擬助理和聊天機器人。

谷歌設想VLOGGER是邁向「具身對話代理」的重要一步，這些代理能夠通過語言、手勢和眼神交流自然地與人類互動。作者聲稱VLOGGER可以作為演示、教育、講述、低帶寬溝通的獨立解決方案，甚至增強人類與計算機之間的純文字互動。

然而，這項技術也存在風險，尤其是在製造深偽技術方面——這種合成媒體可以用他人的肖像替代視頻中的個體。隨著AI生成視頻變得更加真實和可及，與錯誤信息和數字操控相關的挑戰可能加劇。

AI創新新視野

儘管具有強大的功能，VLOGGER也有其局限性。生成的視頻通常較短，背景靜態，且個體在三維空間中缺乏運動。雖然其舉止和語音模式表現得相當真實，但尚未能與真實人類的表現區分開來。

儘管如此，VLOGGER仍標誌著一項重大進步。作者指出：「我們在三個不同的基準上評估VLOGGER，顯示出我們的模型在影像質量、身份保持和時間一致性方面表現優異。」

隨著AI生成媒體的持續演變，未來可能將變得司空見慣，導致分辨真實個體與AI生成代表的現實變得日益困難。

VLOGGER提供了一瞥這種未來的可能性，展示了人工智能的快速進展，同時突顯了區分真實與人工之間日益增長的挑戰。

8.1K

探索AI驅動聊天機器人如何徹底改變客戶服務，提供即時支援、個性化互動及全天候服務. 這些創新工具不僅簡化了溝通，還提高了客戶滿意度與參與度. 探索將AI驅動機器人整合進客戶服務策略的好處，讓您在當今競爭激烈的市場中保持領先.

客服 AI Customer Service Assistant

29.2K

探索為教育工作者和企業家專門設計的終極AI工具包。這一強大資源使用戶能夠有效利用人工智慧，提升教學方法並簡化業務運營。

AI 聊天 AI Chatbot

36.8K

通過富有創意地在單個畫面上進行塗鴉，讓您的視頻重獲生機，將靜態影像轉變為引人入勝的活潑動畫，吸引並吸引觀眾。

視頻變換 AI Animated Video

32.4K

Flamme 幫助伴侶通過精心設計的問題和獨特的約會點子，深化彼此的連結。在一起探索新體驗的同時，進一步瞭解對方。

伴侶應用程式 AI App Builder

Find AI tools in YBX