人类提示强化学习:纠正AI系统错误的新方法

加州大学伯克利分校的科学家们推出了一种突破性的机器学习技术,称为“通过干预反馈的强化学习”(RLIF)。这种创新方法简化了在复杂环境中训练人工智能系统的过程。

RLIF将强化学习与互动模仿学习结合起来,这两种方法在人工智能的训练中至关重要。特别是在奖励信号稀缺且人类反馈不够精确的场景中,RLIF显得尤为有用,这是机器人训练中常见的挑战。

理解强化学习与模仿学习

强化学习在具有明确奖励函数的环境中表现出色,适用于最优控制、游戏及使大型语言模型(LLM)符合人类偏好。然而,在机器人领域,它面临复杂目标缺乏明确奖励信号的问题。

因此,工程师们转向模仿学习,这是一种监督学习的子集,不需要奖励信号,而是基于人类的示范进行训练。例如,人类可以引导机械手臂操控物体,AI通过观察这些视觉示例进行学习。然而,模仿学习存在“分布不匹配问题”,即当代理遇到超出训练示例的情境时,其表现可能下降。互动模仿学习通过让专家实时反馈,纠正代理的偏差,来解决这一问题,但这种方法往往依赖于几乎最优的干预,这在机器人领域可能不总是可行。

方法融合:强化学习与模仿学习

伯克利的研究人员提出了一种混合模型,利用强化学习和互动模仿学习的优势。RLIF基于一个观点,即识别错误通常比执行完美的修正要容易。

在复杂任务中,比如自主驾驶,干预(例如急刹车)可以信号偏差,但并没有提供最优的响应模型。强化学习代理应专注于避免导致干预的情况,而非简单模仿该行为。

“在互动模仿过程中,干预决策可以提供强化学习的奖励信号,”研究人员表示。这使得强化学习方法在类似但更灵活的假设下运作,利用人类干预而不假设其为最优。

RLIF结合了示范与互动干预来训练代理,但将这些干预视为潜在错误的指示,而非最优行动的明确指南。研究人员强调:“我们期待专家在训练策略产生次优行为时更加愿意进行干预,”这表明这些干预可以作为调整AI行为的重要信号。

通过解决传统强化学习和互动模仿学习的局限性——例如需要精确的奖励函数和最优干预——RLIF为复杂环境提供了更实用的解决方案。研究人员补充道:“专家可能更容易识别不良状态,而不是在这些情况下始终做出最优反应。”

RLIF的测试

伯克利团队将RLIF与DAgger,一个知名的互动模仿学习算法进行了比较。在模拟环境中,RLIF的表现超越了顶尖DAgger变体,平均提高了两到三倍,专家干预不最佳时这个差距更是扩大到五倍。

在现实世界的测试中,涉及机械挑战如物体操作和布料折叠,进一步验证了RLIF的稳健性和实际应用潜力。

尽管RLIF在高数据需求和实时部署的复杂性方面存在一些挑战,它在各类应用中训练先进机器人系统的潜力显著,使其成为人工智能领域的重要工具。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles