Модели ИИ оценивают свою безопасность: Ин insights открытия последнего исследования по выравниванию от OpenAI

OpenAI представила новый подход к согласованию моделей ИИ с политиками безопасности, названный Наградами на основе правил (RBR). Лилиан Вэнг, глава систем безопасности в OpenAI, объяснила, что RBR автоматизирует части настройки модели, существенно сокращая время, необходимое для предотвращения нежелательных реакций модели.

Традиционно модели полагались на обучение с подкреплением на основе человеческой обратной связи для тренировки по согласованию, что, по словам Вэнг, эффективно, но требует много времени. "Мы часто тратим значительное время на обсуждение нюансов политики, и к концу обсуждения политика может уже измениться," отметила она в интервью.

Обучение с подкреплением на основе обратной связи от людей включает в себя побуждение моделей и оценку их ответов на основе точности и предпочтений. Если модель настроена так, чтобы не реагировать определенным образом—например, отказывать в опасных запросах—человеческие оценщики проверяют, соответствует ли она правилам безопасности.

С помощью RBR OpenAI позволяет командам по безопасности и политике использовать модель, которая оценивает ответы в соответствии с установленными правилами. Например, при разработке приложения для психического здоровья команде может понадобиться, чтобы их модель ИИ отвергала небезопасные запросы, не проявляя суждений, при этом поощряя пользователей искать помощь. Это требует формулировки трех правил: модель должна отказать в запросе, сохранять беспристрастный тон и предоставлять поддерживающие напоминания.

Модель RBR оценивает ответы ИИ в области психического здоровья по этим трем правилам для определения соблюдения. Вэнг сообщила, что результаты тестирования с использованием RBR сопоставимы с теми, которые получены через обучение с подкреплением, проводимое людьми.

Несмотря на обещания RBR, обеспечение работы моделей ИИ в рамках определенных параметров по-прежнему является сложной задачей, иногда приводящей к противоречиям. Например, в феврале Google подвергся критике после того, как его модель Gemini чрезмерно откорректировала, что привело к отказу генерировать изображения белых людей и производству исторически неточных результатов.

Снижение человеческой субъективности

Концепция ИИ, контролирующего безопасность другого ИИ, вызывает обоснованные опасения. Однако Вэнг утверждает, что RBR помогает минимизировать субъективность, распространенную проблему для человеческих оценщиков. "При работе с человеческими тренерами неясные инструкции приводят к менее качественным данным," заметила она. Четкие правила, по ее словам, более эффективно направляют поведение модели.

OpenAI признает, что хотя RBR может уменьшить необходимость в человеческом контроле, это также создает этические проблемы, такие как потенциальное увеличение предвзятости. Компания подчеркивает важность разработки RBR-систем, которые обеспечивают справедливость и точность, предлагая сочетание RBR и человеческой обратной связи.

RBR может испытывать трудности с задачами, требующими субъективной оценки, как, например, творческое письмо.

OpenAI начала исследовать методы RBR во время разработки GPT-4, и Вэнг утверждает, что методология с тех пор значительно продвинулась.

OpenAI столкнулась с критикой относительно своей приверженности к безопасности. В марте бывший исследователь Ян Лейке раскритиковал культуру и процессы безопасности компании, отметив, что они были затенены стремлением к инновационным продуктам. Илья Сутскевер, сооснователь и главный ученый, который ранее возглавлял команду Superalignment вместе с Лейке, покинул OpenAI, чтобы создать новую компанию, сосредоточенную на безопасных системах ИИ.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles