来自斯坦福大学和Meta的Facebook AI Research(FAIR)实验室的研究人员揭示了一种革命性的人工智能系统,可通过文本描述生成虚拟人类与物体之间逼真且同步的运动。该系统名为CHOIS(可控人类-物体交互合成),使用先进的条件扩散模型技术,实现无缝的交互。例如,它能够理解并动画化指令,如“将桌子举到头顶,走动,然后放下桌子”。
这项研究已发表于arXiv,预示着未来虚拟生物能够像人类一样流畅地理解和执行语言命令。研究人员指出:“从语言描述中生成3D场景中连续的人类-物体交互面临许多挑战。”他们的首要任务是确保动作的逼真性,使人类的手准确地与物体互动,并让物体对人类的动作作出响应。
CHOIS的工作原理
CHOIS在3D空间中创造人类-物体交互方面表现出色。它的核心是一个条件扩散模型,这是一个能够模拟详细运动序列的生成框架。在给定人类和物体初始位置以及所需动作的语言描述之后,CHOIS生成实现该任务的运动序列。
例如,如果指示将一盏灯移 closer到沙发,CHOIS可以生成一个生动的动画,展示一个人形化身将灯捡起并放置在沙发旁边。
CHOIS的独特之处在于其利用稀疏的物体航点和语言输入来指导动画制作。这些航点作为物体运动中的关键点标记,确保动画既现实又与语言输入描述的总体目标保持一致。此外,CHOIS将语言理解与物理仿真有效结合,克服了传统模型在长时间交互中常常难以将语言与空间和物理动作结合的问题。CHOIS能够理解语言描述背后的意图和风格,并将其转化为一系列物理动作,同时遵循人类身体和相关物体的限制。
该系统确保准确表示接触点,例如手接触物体,并使物体的运动与人形化身施加的力量相一致。通过在训练和生成阶段采用专门的损失函数和引导项,CHOIS强化了这些物理约束,显著提升了人工智能理解和与物理世界互动的能力。
对计算机图形学、人工智能和机器人技术的影响
CHOIS系统对计算机图形学的影响深远,尤其是在动画和虚拟现实领域。该技术使人工智能能够解释自然语言命令,进行逼真的人类-物体交互,预计会显著简化动画制作过程,减少复杂场景创建所需的时间和精力。
动画师可以利用此技术来自动化需要细致关键帧动画的序列。在虚拟现实中,CHOIS可以实现更加沉浸式的体验,用户可以通过自然语言指引虚拟角色,观察真实的任务执行,将以前脚本化的交互转变为动态响应的环境。
在人工智能和机器人领域,CHOIS代表着向开发自主、上下文感知系统迈出的重要一步。机器人不再依赖预设的程序,而是能够使用CHOIS理解并执行人类语言描述的任务。这可能会革新医疗、酒店和家庭等行业中的服务机器人,增强其在物理空间中解读和执行多样化任务的能力。
此外,同时处理语言和视觉输入的能力使得人工智能能够实现以往主要是人类的情境和上下文理解。这一进展意味着AI系统可以在复杂任务中充当更强大助手,不仅理解“什么”,还理解“如何”执行人类指令,并以前所未有的灵活性适应新挑战。
前景展望
总之,斯坦福大学和Meta的合作研究在计算机视觉、自然语言处理(NLP)和机器人技术的交叉领域取得了显著进展。研究人员将这项工作视为开发能够模拟不同3D环境中连续人类行为的复杂AI系统的重要一步。此外,这为进一步探索从3D场景和语言输入合成人类-物体交互铺平了道路,可能在未来促成更先进的人工智能技术。