基础模型正在改变计算机视觉和自然语言处理领域,研究人员现在提出将这些原则应用于发展基础代理。这些人工智能系统旨在应对物理环境中的开放式决策任务。
在一篇最新的立场论文中,来自中国科学院大学的科学家将基础代理定义为“在物理和虚拟世界中具备广泛能力的代理”。他们认为,这些代理可能引领决策方式的变革,类似大型语言模型(LLMs)如何革新了语言和知识中心的任务。
您准备好迎接人工智能代理了吗?
基础代理将简化多功能人工智能系统的创建,这些系统可以对当前依赖于刚性、任务特定的AI解决方案的领域产生重大影响。
人工智能决策的挑战
传统的人工智能决策方法存在显著局限性。专家系统依赖于人类知识和手动创建的规则。强化学习(RL)系统在每个新任务上都需从头开始训练,限制了其泛化能力。模仿学习(IL)则需要大量人力来准备训练样本。
相比之下,LLMs和视觉语言模型(VLMs)能够通过最小的微调快速适应不同任务。研究人员相信,经过必要的修改,这些方法可以调整用于开发基础代理,以应对物理和虚拟领域中的开放式决策任务。
基础代理的关键特征
研究人员指出基础代理的三个基本特征:
1. 统一表示:环境状态、代理动作和反馈信号的综合表现。
2. 统一政策接口:适用于广泛的任务和领域,包括机器人技术、游戏、医疗等。
3. 合理的决策过程:基于对世界知识、环境因素及与其他代理互动的理解进行决策。
研究人员表示:“这些特征使基础代理具备多模态感知、跨任务和领域的适应性,以及在几乎没有样本的情况下进行泛化的能力。”
基础代理的发展路线图
为开发基础代理而提出的路线图包括三个关键部分:
1. 数据收集:必须从互联网和现实世界环境中收集大规模交互数据。在数据获取困难的情况下,可以使用模拟器和生成模型(如Sora)。
2. 无标签数据的预训练:基础代理应使用无标签数据进行预训练,从而培养有用的决策知识。这为模型在较小特定数据集上进行微调做好准备,使其快速适应新任务。
3. 与LLMs的对齐:基础代理应与大型语言模型对接,以将世界知识和人类价值观纳入其决策过程。
基础代理面临的挑战与机遇
开发基础代理将带来一些在语言和视觉模型中未遇到的独特挑战。物理世界的细节涉及低级信息,而非高级抽象,增加了为决策变量创建统一表示的难度。此外,决策场景中的显著领域变异阻碍了统一政策接口的开发。尽管统一基础模型可能涵盖所有模态和环境,但这也可能引入复杂性,影响可解释性。
基础代理必须积极参与动态决策过程,这与语言和视觉模型以内容为中心的角色有所不同。研究人员提出了多种方法,旨在弥补现有基础模型与能够应对不断变化任务和环境的代理之间的差距。
在机器人技术领域,正在进行重大进展,控制系统与基础模型的结合正在创造出可以横跨未遇任务进行泛化的自适应系统。这些系统利用来自LLMs和VLMs的广泛常识知识,在未知场景中做出明智决策。
另一个重要的探索领域是自动驾驶,研究人员正调查大型语言模型如何通过融入常识知识和人类认知能力来增强驾驶系统。这也为医疗和科学研究等其他领域带来了基础代理与人类专家合作的潜在收益。
“基础代理有潜力改变决策过程,正如基础模型影响了语言和视觉一样,”研究人员坚定地表示。“它们的高级感知、适应性和推理能力不仅弥补了传统强化学习的局限,还开启了基础代理在现实应用中的全面能力。”