人类提示强化学习：纠正AI系统错误的新方法

Home AI News CN 人类提示强化学习：纠正AI系统错误的新方法

Updated on 十二月 5 2023

加州大学伯克利分校的科学家们推出了一种突破性的机器学习技术，称为“通过干预反馈的强化学习”（RLIF）。这种创新方法简化了在复杂环境中训练人工智能系统的过程。

RLIF将强化学习与互动模仿学习结合起来，这两种方法在人工智能的训练中至关重要。特别是在奖励信号稀缺且人类反馈不够精确的场景中，RLIF显得尤为有用，这是机器人训练中常见的挑战。

理解强化学习与模仿学习

强化学习在具有明确奖励函数的环境中表现出色，适用于最优控制、游戏及使大型语言模型（LLM）符合人类偏好。然而，在机器人领域，它面临复杂目标缺乏明确奖励信号的问题。

因此，工程师们转向模仿学习，这是一种监督学习的子集，不需要奖励信号，而是基于人类的示范进行训练。例如，人类可以引导机械手臂操控物体，AI通过观察这些视觉示例进行学习。然而，模仿学习存在“分布不匹配问题”，即当代理遇到超出训练示例的情境时，其表现可能下降。互动模仿学习通过让专家实时反馈，纠正代理的偏差，来解决这一问题，但这种方法往往依赖于几乎最优的干预，这在机器人领域可能不总是可行。

方法融合：强化学习与模仿学习

伯克利的研究人员提出了一种混合模型，利用强化学习和互动模仿学习的优势。RLIF基于一个观点，即识别错误通常比执行完美的修正要容易。

在复杂任务中，比如自主驾驶，干预（例如急刹车）可以信号偏差，但并没有提供最优的响应模型。强化学习代理应专注于避免导致干预的情况，而非简单模仿该行为。

“在互动模仿过程中，干预决策可以提供强化学习的奖励信号，”研究人员表示。这使得强化学习方法在类似但更灵活的假设下运作，利用人类干预而不假设其为最优。

RLIF结合了示范与互动干预来训练代理，但将这些干预视为潜在错误的指示，而非最优行动的明确指南。研究人员强调：“我们期待专家在训练策略产生次优行为时更加愿意进行干预，”这表明这些干预可以作为调整AI行为的重要信号。

通过解决传统强化学习和互动模仿学习的局限性——例如需要精确的奖励函数和最优干预——RLIF为复杂环境提供了更实用的解决方案。研究人员补充道：“专家可能更容易识别不良状态，而不是在这些情况下始终做出最优反应。”

RLIF的测试

伯克利团队将RLIF与DAgger，一个知名的互动模仿学习算法进行了比较。在模拟环境中，RLIF的表现超越了顶尖DAgger变体，平均提高了两到三倍，专家干预不最佳时这个差距更是扩大到五倍。

在现实世界的测试中，涉及机械挑战如物体操作和布料折叠，进一步验证了RLIF的稳健性和实际应用潜力。

尽管RLIF在高数据需求和实时部署的复杂性方面存在一些挑战，它在各类应用中训练先进机器人系统的潜力显著，使其成为人工智能领域的重要工具。

天文学家优化Apache Airflow以提升AI应用中的数据调度效率

视觉电气推出革命性工具，超越聊天界面，改变AI艺术创作方式