谷歌发布110亿参数的Genie模型:将图像转变为可玩虚拟世界

谷歌深Mind团队最近揭晓了Genie,一个拥有110亿参数的基础世界模型,能够将单一图像转化为互动的虚拟世界。这项突破性技术引起了广泛关注,标志着人工智能迈入视频游戏的新阶段。

与以往模型不同,谷歌Genie从20万小时的未标记互联网视频中学习,而无需监督训练,使其能够生成丰富多样的场景。它还可以在没有动作标签的情况下识别场景中的主要角色,增强用户互动,展示出在虚拟环境创建方面的巨大潜力。

Genie的能力源于三个核心组件:潜在动作模型、视频标记器和自回归动态模型。这些元素协同工作,发展出一种潜在的动作空间,以丰富用户互动,并使智能体能够模仿视频中未见过的行为。

此外,Genie还支持融入人类设计的草图或真实图像。利用先进的文本生成图像模型,Genie可以将初始画面转化为互动的虚拟宇宙,大幅扩展其应用可能性。

Genie团队负责人Tim Rocktäschel强调,Genie是人工通用智能(AGI)发展中的一个关键步骤,预计将重新塑造互动生成环境的前景,并为未来的人工智能发展奠定基础。

总之,谷歌深Mind推出的Genie模型预示着视频游戏行业的革命性转变。其从单一图像生成可玩虚拟世界的能力,标志着人工智能将广泛应用于游戏产业的未来。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles