谷歌推出110億參數的Genie模型:將影像轉化為可玩虛擬世界

谷歌 DeepMind 團隊最近推出了 Genie,一個具有 110 億參數的基礎世界模型,能將單一圖像轉變為互動虛擬世界。這項突破性技術引起了廣泛關注,標誌著人工智慧進入視頻遊戲領域的關鍵時刻。

與先前的模型不同,Google Genie 從 20 萬小時的未標記網路視頻中學習,無需監督訓練,從而生成豐富多樣的場景。它還能在沒有動作標籤的情況下識別場景中的主要角色,進一步促進用戶互動,展現其打造虛擬環境的巨大潛力。

Genie 的核心能力由三個主要組件構成:潛在行動模型、視頻標記器和自回歸動態模型。這些元素共同開發了一個豐富用戶互動的潛在行動空間,同時使代理能夠模仿視頻中的未見行為。

此外,Genie 創新性地支持人類設計的草圖或真實圖像的融入。借助先進的文本轉圖像生成模型,Genie 能將初始畫面轉換為互動虛擬宇宙,顯著擴展其可用性。

Genie 團隊負責人 Tim Rocktäschel 強調,Genie 代表了人工一般智慧 (AGI) 發展的重要一步,有望重新塑造互動生成環境的格局,為未來的 AI 進步奠定基礎。

總之,谷歌 DeepMind 推出了 Genie 模型,預示著視頻遊戲行業的革命性變革。它能夠從單一圖像生成可玩虛擬世界,標誌著 AI 在遊戲中的廣泛整合即將來臨。

Most people like

Find AI tools in YBX