Модели ИИ оценивают свою безопасность: Ин insights открытия последнего исследования по выравниванию от OpenAI

Home Новости ИИ Модели ИИ оценивают свою безопасность: Ин insights открытия последнего исследования по выравниванию от OpenAI

Updated on июль 24 2024

OpenAI представила новый подход к согласованию моделей ИИ с политиками безопасности, названный Наградами на основе правил (RBR). Лилиан Вэнг, глава систем безопасности в OpenAI, объяснила, что RBR автоматизирует части настройки модели, существенно сокращая время, необходимое для предотвращения нежелательных реакций модели.

Традиционно модели полагались на обучение с подкреплением на основе человеческой обратной связи для тренировки по согласованию, что, по словам Вэнг, эффективно, но требует много времени. "Мы часто тратим значительное время на обсуждение нюансов политики, и к концу обсуждения политика может уже измениться," отметила она в интервью.

Обучение с подкреплением на основе обратной связи от людей включает в себя побуждение моделей и оценку их ответов на основе точности и предпочтений. Если модель настроена так, чтобы не реагировать определенным образом—например, отказывать в опасных запросах—человеческие оценщики проверяют, соответствует ли она правилам безопасности.

С помощью RBR OpenAI позволяет командам по безопасности и политике использовать модель, которая оценивает ответы в соответствии с установленными правилами. Например, при разработке приложения для психического здоровья команде может понадобиться, чтобы их модель ИИ отвергала небезопасные запросы, не проявляя суждений, при этом поощряя пользователей искать помощь. Это требует формулировки трех правил: модель должна отказать в запросе, сохранять беспристрастный тон и предоставлять поддерживающие напоминания.

Модель RBR оценивает ответы ИИ в области психического здоровья по этим трем правилам для определения соблюдения. Вэнг сообщила, что результаты тестирования с использованием RBR сопоставимы с теми, которые получены через обучение с подкреплением, проводимое людьми.

Несмотря на обещания RBR, обеспечение работы моделей ИИ в рамках определенных параметров по-прежнему является сложной задачей, иногда приводящей к противоречиям. Например, в феврале Google подвергся критике после того, как его модель Gemini чрезмерно откорректировала, что привело к отказу генерировать изображения белых людей и производству исторически неточных результатов.

Снижение человеческой субъективности

Концепция ИИ, контролирующего безопасность другого ИИ, вызывает обоснованные опасения. Однако Вэнг утверждает, что RBR помогает минимизировать субъективность, распространенную проблему для человеческих оценщиков. "При работе с человеческими тренерами неясные инструкции приводят к менее качественным данным," заметила она. Четкие правила, по ее словам, более эффективно направляют поведение модели.

OpenAI признает, что хотя RBR может уменьшить необходимость в человеческом контроле, это также создает этические проблемы, такие как потенциальное увеличение предвзятости. Компания подчеркивает важность разработки RBR-систем, которые обеспечивают справедливость и точность, предлагая сочетание RBR и человеческой обратной связи.

RBR может испытывать трудности с задачами, требующими субъективной оценки, как, например, творческое письмо.

OpenAI начала исследовать методы RBR во время разработки GPT-4, и Вэнг утверждает, что методология с тех пор значительно продвинулась.

OpenAI столкнулась с критикой относительно своей приверженности к безопасности. В марте бывший исследователь Ян Лейке раскритиковал культуру и процессы безопасности компании, отметив, что они были затенены стремлением к инновационным продуктам. Илья Сутскевер, сооснователь и главный ученый, который ранее возглавлял команду Superalignment вместе с Лейке, покинул OpenAI, чтобы создать новую компанию, сосредоточенную на безопасных системах ИИ.

Новый инструмент ИИ от Nvidia вызывает потенциальную охоту за золотом на кастомные модели

Berkeley SkyDeck расширяет критерии приемлемости для заявителей на акселератор стартапов

Most people like

SkyDeck AI

Увеличьте свою креативность и продуктивность, используя безопасные решения на основе генеративного ИИ.

ИИ AI Productivity Tools

AiVOOV

56.5K

Представляем AiVOOV: преобразуйте свой текст в аудио с помощью нашей передовой технологии голосового ИИ, предлагающей более 900 уникальных голосов на более чем 125 языках. Откройте для себя будущее преобразования текста в речь с AiVOOV уже сегодня!

текст в речь Text-to-Speech

Welcome Compass

15.3K

Преобразуйте впечатления гостей с помощью инновационных цифровых гидов на основе ИИ.

На базе ИИ AI Reviews Assistant

Pincel

Преображайте свои фотографии с легкостью, используя Pincel, умное и простое онлайн-приложение для редактирования изображений. Редактируйте свои изображения, доводя их до совершенства одним взмахом кисти.

редактирование изображений Photo & Image Editor

Find AI tools in YBX