AI模型自评安全性:OpenAI最新对齐研究的洞察分析

OpenAI推出了一种新的策略,旨在使AI模型与安全政策保持一致,称为基于规则的奖励(RBR)。OpenAI安全系统负责人Lilian Weng表示,RBR可以自动化模型微调的部分过程,显著缩短了防止意外模型响应所需的时间。

传统上,模型依赖于人类反馈的强化学习进行对齐训练。Weng指出,尽管这一方法有效,但耗时较长。“我们经常花费大量时间讨论政策细节,而到最后,政策可能已经发生变化,”她在接受采访时表示。

强化学习通过提示模型并根据准确性和偏好评估其响应。如果模型被编程为不以某种方式回应(例如拒绝危险请求),人类评估者会检查其是否符合安全指南。

通过RBR,OpenAI使安全和政策团队能够利用一个模型,该模型根据既定规则评估响应。例如,开发心理健康应用程序的团队可能要求其AI模型拒绝不安全的提示,同时不带评判性地鼓励用户寻求帮助。这需要制定三个规则:模型必须拒绝请求,保持非评判性的语气,并提供支持性提醒。

RBR模型根据这三个规则评估心理健康AI的响应以确定合规性。Weng表示,使用RBR的测试结果与人类主导的强化学习得出的结果相当。

尽管RBR前景光明,但确保AI模型在设定参数内运行仍然具有挑战性,有时还会引发争议。例如,谷歌在2月面临公众反对,因为其Gemini模型过度纠正,拒绝生成白人图像,反而创建了 historically inaccurate 输出。

减轻人类主观性

利用AI监督另一AI的安全性引发了有效的担忧。然而,Weng认为,RBR有助于减少主观性,这是人类评估者面临的常见挑战。“与人类训练者合作时,模糊的指令会导致数据质量下降,”她指出。Weng认为,明确的规则更能有效引导模型的行为。

OpenAI承认,尽管RBR可能减少人类监督,但也带来了诸如可能加剧偏见等伦理挑战。该公司强调设计RBR系统以确保公平和准确的重要性,建议将RBR与人类反馈结合使用。RBR可能在需要主观判断的任务(如创意写作)中面临困难。

OpenAI在开发GPT-4时开始探索RBR方法,Weng表示自那时以来,该方法有了显著进步。

OpenAI的安全承诺受到审视。今年3月,前研究员Jan Leike批评该公司的安全文化和流程,称其被追求创新产品所掩盖。OpenAI联合创始人兼首席科学家Ilya Sutskever曾与Leike共同领导超级对齐团队,但近日已离开OpenAI,成立新公司专注于安全AI系统。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles