谷歌研究人員推出了一種創新的人工智能系統——VLOGGER,能夠從一張靜態照片中生成逼真的視頻,展現個體的講話、手勢和動作。這項突破性技術運用先進的機器學習模型創造出極為真實的影像,提供了許多潛在應用,同時也引發了對深偽技術和錯誤信息的擔憂。
在名為《VLOGGER: 多模態擴散以合成人物化身》的研究論文中,團隊展示了這個AI模型如何利用一張個體的照片和一段音頻,生成視頻,讓該個體講出音頻內容,並展現相應的面部表情、頭部運動和手勢。雖然這些視頻可能存在一些瑕疵,但它們標誌著靜態圖像動畫化的重要進步。
革新合成通訊
在谷歌研究所,Enric Corona領導的團隊使用擴散模型——這是一種強大的機器學習框架,能從文本描述中生成逼真影像。通過將這些模型改編為視頻合成並在大量新數據集上進行訓練,研究人員創造出一個系統,可以生動地將照片動畫化。
作者指出:「與以往的方法不同,我們的方法不需要個別訓練,避免了臉部檢測和裁剪,能生成完整影像,並處理各種真實人類溝通所需的場景。」
成功的關鍵在於建立了一個名為MENTOR的大型數據集,其中包含超過80萬個多樣化的身份和2200小時的視頻,遠超過以往數據集。這樣的廣度使VLOGGER能夠生成不同種族、年齡、服裝、姿勢和背景的個體視頻,沒有偏見。
激動人心的應用與倫理影響
VLOGGER開創了許多令人期待的應用。研究強調了該系統能夠自動將視頻翻譯成不同語言、無縫編輯和補全視頻幀,並從單一圖像生成完整視頻的能力。
潛在應用包括演員為新表演許可詳細的3D模型、為虛擬現實(VR)和遊戲創建逼真的虛擬形象,以及開發更具表現力和吸引力的AI驅動虛擬助理和聊天機器人。
谷歌設想VLOGGER是邁向「具身對話代理」的重要一步,這些代理能夠通過語言、手勢和眼神交流自然地與人類互動。作者聲稱VLOGGER可以作為演示、教育、講述、低帶寬溝通的獨立解決方案,甚至增強人類與計算機之間的純文字互動。
然而,這項技術也存在風險,尤其是在製造深偽技術方面——這種合成媒體可以用他人的肖像替代視頻中的個體。隨著AI生成視頻變得更加真實和可及,與錯誤信息和數字操控相關的挑戰可能加劇。
AI創新新視野
儘管具有強大的功能,VLOGGER也有其局限性。生成的視頻通常較短,背景靜態,且個體在三維空間中缺乏運動。雖然其舉止和語音模式表現得相當真實,但尚未能與真實人類的表現區分開來。
儘管如此,VLOGGER仍標誌著一項重大進步。作者指出:「我們在三個不同的基準上評估VLOGGER,顯示出我們的模型在影像質量、身份保持和時間一致性方面表現優異。」
隨著AI生成媒體的持續演變,未來可能將變得司空見慣,導致分辨真實個體與AI生成代表的現實變得日益困難。
VLOGGER提供了一瞥這種未來的可能性,展示了人工智能的快速進展,同時突顯了區分真實與人工之間日益增長的挑戰。