AI模型自评安全性：OpenAI最新对齐研究的洞察分析

Home AI News CN AI模型自评安全性：OpenAI最新对齐研究的洞察分析

OpenAI推出了一种新的策略，旨在使AI模型与安全政策保持一致，称为基于规则的奖励（RBR）。OpenAI安全系统负责人Lilian Weng表示，RBR可以自动化模型微调的部分过程，显著缩短了防止意外模型响应所需的时间。

传统上，模型依赖于人类反馈的强化学习进行对齐训练。Weng指出，尽管这一方法有效，但耗时较长。“我们经常花费大量时间讨论政策细节，而到最后，政策可能已经发生变化，”她在接受采访时表示。

强化学习通过提示模型并根据准确性和偏好评估其响应。如果模型被编程为不以某种方式回应（例如拒绝危险请求），人类评估者会检查其是否符合安全指南。

通过RBR，OpenAI使安全和政策团队能够利用一个模型，该模型根据既定规则评估响应。例如，开发心理健康应用程序的团队可能要求其AI模型拒绝不安全的提示，同时不带评判性地鼓励用户寻求帮助。这需要制定三个规则：模型必须拒绝请求，保持非评判性的语气，并提供支持性提醒。

RBR模型根据这三个规则评估心理健康AI的响应以确定合规性。Weng表示，使用RBR的测试结果与人类主导的强化学习得出的结果相当。

尽管RBR前景光明，但确保AI模型在设定参数内运行仍然具有挑战性，有时还会引发争议。例如，谷歌在2月面临公众反对，因为其Gemini模型过度纠正，拒绝生成白人图像，反而创建了 historically inaccurate 输出。

减轻人类主观性

利用AI监督另一AI的安全性引发了有效的担忧。然而，Weng认为，RBR有助于减少主观性，这是人类评估者面临的常见挑战。“与人类训练者合作时，模糊的指令会导致数据质量下降，”她指出。Weng认为，明确的规则更能有效引导模型的行为。

OpenAI承认，尽管RBR可能减少人类监督，但也带来了诸如可能加剧偏见等伦理挑战。该公司强调设计RBR系统以确保公平和准确的重要性，建议将RBR与人类反馈结合使用。RBR可能在需要主观判断的任务（如创意写作）中面临困难。

OpenAI在开发GPT-4时开始探索RBR方法，Weng表示自那时以来，该方法有了显著进步。

OpenAI的安全承诺受到审视。今年3月，前研究员Jan Leike批评该公司的安全文化和流程，称其被追求创新产品所掩盖。OpenAI联合创始人兼首席科学家Ilya Sutskever曾与Leike共同领导超级对齐团队，但近日已离开OpenAI，成立新公司专注于安全AI系统。

Nvidia新AI工具引发定制模型潜在“淘金热”

伯克利SkyDeck扩大创业加速器申请资格标准

Most people like

RevComm

45.6K

具备对话分析功能的人工智能IP电话，利用先进的技术提升沟通效率。这款电话不仅可以监测和分析通话内容，还能提供实时反馈，帮助用户优化对话技巧。无论是企业客户支持还是个人使用，该产品都旨在提升交流质量，使每次对话更具成效。

人工智能驱动 AI CRM助手

PixieBrix

86.1K

低代码平台是用于实现自定义浏览器修改和自动化的强大工具。这些平台通过简化开发流程，使用户能够在无需深入编码知识的情况下，轻松创建和调整浏览器功能。借助低代码平台，用户可以提高工作效率，实现更灵活的网页交互。

浏览器扩展人工智能知识库

Origin

60K

一款全方位的理财平台，旨在推动财务增长与成功。

财务管理 AI广告助手

Applio

139.2K

语音克隆生态系统是一个创新领域，利用先进技术创建高度逼真的人声数字化表现。通过运用人工智能和机器学习算法，该生态系统能够合成与个人声音特征高度相似的语音。随着语音克隆技术的不断发展，它已在娱乐、客户服务和无障碍等多个行业中找到应用。了解语音克隆生态系统对于把握其潜在影响以及在日益数字化的世界中面临的伦理问题至关重要。

人工智能其他

Find AI tools in YBX