帝国理工学院与DeepMind联合推出能够以最少数据学习的实体智能体

具身 AI 代理能够与物理世界互动,具有广泛的应用潜力。然而,当前面临的主要挑战是训练数据的稀缺。

为了解决这一问题,伦敦帝国学院和谷歌 DeepMind 的研究人员提出了扩散增强代理(DAAG)框架。这一创新方法利用了大型语言模型(LLM)、视觉语言模型(VLM)和扩散模型的能力,提升具身代理的学习效率和迁移学习能力。

你准备好迎接 AI 代理了吗?

为什么数据效率对具身代理如此重要?

近年来,LLM 和 VLM 的进展使得人们对其在机器人和具身 AI 中的应用充满信心。这些模型可以在互联网收集的大量文本和图像数据集上进行训练,但具身 AI 系统需要通过物理交互进行学习。

现实世界为具身 AI 的数据收集带来了独特的挑战。物理环境相比数字领域更加复杂和不可预测。此外,机器人等具身 AI 依赖于物理传感器和执行器,这些设备可能反应缓慢、噪音大并且容易发生故障。

研究人员认为,克服这些挑战的关键在于优化代理现有数据和经验的使用。他们表示:“我们假设通过借鉴过去的经验,具身代理能够更有效地进行探索,并跨任务转移知识,从而实现更大的数据效率。”

什么是 DAAG?

扩散增强代理(DAAG)框架旨在通过利用过去的经验和生成合成数据,使代理更有效地学习任务。研究人员希望代理能够自主设定和评估子目标,甚至在没有外部奖励的情况下,利用之前的经验加速新任务的学习。

DAAG 在马尔可夫决策过程(MDP)中运作。在每个任务开始时,代理接收任务指令,观察环境,并采取行动以达到与指令一致的状态。它具有两个记忆缓冲区:一个是针对当前经验的任务特定缓冲区,另一个是包含所有过去经验的“离线终身缓冲区”,无论这些经验的任务或结果如何。

DAAG 综合了 LLM、VLM 和扩散模型的优势,使代理能够进行推理、环境分析,并通过重新利用以前的经验有效地学习新目标。LLM 作为核心控制器,解释新的任务指令,将其分解为更小的子目标,并与 VLM 和扩散模型协同实现目标。

为了最大化过去经验的效用,DAAG 采用了一种称为“后见经验增强”(HEA)的方法。VLM 处理经验缓冲区中的视觉观察,并将其与期望的子目标进行比较,从而增强代理的相关记忆。如果缺乏相关经验,扩散模型会生成合成数据,帮助代理可视化潜在结果,从而在没有直接物理交互的情况下进行探索。

“通过 HEA,我们可以在代理的缓冲区中合成增加成功的任务回合数量,从而有效重用数据,显著提升效率,特别是在快速学习多个任务时,”研究人员解释道。他们将 DAAG 和 HEA 描述为一个自主流程,能够独立于人工监督地运作,利用几何和时间一致性生成可靠的增强观测结果。

DAAG 的优势是什么?

在多项基准测试和模拟环境中的评估中,研究人员发现 DAAG 在导航和物体操控等任务上显著优于传统的强化学习系统。值得注意的是,获益于 DAAG 的代理即使在没有明确奖励的情况下也能实现目标,且达到目标的速度更快,与环境的互动更少。

该框架在重新利用先前任务的数据方面表现出色,从而促进新目标的快速学习。能够在任务之间转移知识对于创造能够持续学习和适应的代理至关重要。DAAG 在优化迁移学习方面的有效性为更具韧性和灵活性的机器人及具身 AI 系统铺平了道路。

“这项工作为解决机器人学习中的数据稀缺问题和开发更全面能力的代理提供了有希望的方向,”研究人员总结道。

Most people like

Find AI tools in YBX