Новый алгоритм Университета Пенсильвании, названный Prompt Automatic Iterative Refinement (PAIR), направлен на устранение уязвимостей безопасности в больших языковых моделях (LLM).
Что делает PAIR
PAIR выявляет «джейлбрейк» подсказки, которые могут обмануть LLM, позволяя им обходить защитные механизмы, предназначенные для предотвращения генерации вредоносного контента. Этот алгоритм выделяется благодаря эффективному взаимодействию с черными ящиками, такими как ChatGPT, и созданию джейлбрейк подсказок с меньшим числом попыток. Кроме того, подсказки, генерируемые PAIR, интерпретируемы и переносимы между различными LLM, что делает его ценным инструментом для компаний, стремящихся быстро и экономично выявлять и устранять уязвимости.
Типы Джейлбрейков
Джейлбрейки в основном делятся на две категории: на уровне подсказок и на уровне токенов.
- Джейлбрейки на уровне подсказок используют значимые обманы и социальную инженерию для манипуляции выводом LLM. Хотя они интерпретируемы, их разработка часто требует значительных усилий со стороны человека, что ограничивает масштабируемость.
- Джейлбрейки на уровне токенов модифицируют выводы, добавляя произвольные токены для оптимизации подсказок. Этот подход можно автоматизировать, но он обычно требует значительного количества запросов, что приводит к менее интерпретируемым результатам из-за добавленной сложности.
PAIR стремится объединить интерпретируемость джейлбрейков на уровне подсказок с эффективностью автоматизации техник на уровне токенов.
Методология PAIR
PAIR работает с двумя черными ящиками LLM: атакующей моделью и целевой моделью. Атакующая модель ищет подсказки, которые могут джейлбрейкнуть целевую без вмешательства человека. Исследователи объясняют, что обе LLM могут креативно сотрудничать для выявления эффективных джейлбрейк подсказок.
Важно, что PAIR может функционировать без прямого доступа к весам модели или градиентам. Он работает с моделями, доступными через API, включая ChatGPT от OpenAI, PaLM 2 от Google и Claude 2 от Anthropic.
Процесс состоит из четырех шагов:
1. Атакующая модель получает инструкции и генерирует кандидатную подсказку для конкретной задачи, например, составления фишингового письма.
2. Эта подсказка отправляется целевой модели для генерации ответа.
3. Функция «судьи», такая как GPT-4, оценивает релевантность ответа по сравнению с подсказкой.
4. Если ответ неудовлетворительный, атакующей модели предоставляется обратная связь, что инициирует новую попытку.
Этот цикл продолжается до тех пор, пока не будет успешно найден джейлбрейк или не будет достигнуто максимальное количество попыток, при этом возможна обработка нескольких кандидатных подсказок одновременно для повышения эффективности.
Результаты и Эффективность
В экспериментах исследователи использовали открытый Vicuna как атакующую модель против различных целей, включая ChatGPT, GPT-4, Claude 2 и другие. Результаты показали, что PAIR успешно джейлбрейкнул GPT-3.5 и GPT-4 в 60% случаев и достиг полной успешности с Vicuna-13B-v1.5. Однако модели Claude продемонстрировали высокую устойчивость к джейлбрейк-атакам.
Одним из заметных преимуществ PAIR является его эффективность: успешные джейлбрейки достигаются всего за двадцать запросов со средней продолжительностью около пяти минут. Это значительное улучшение по сравнению с традиционными методами, которые могут требовать тысяч запросов и значительных временных затрат.
Более того, интерпретируемый дизайн атак PAIR повышает их переносимость на другие LLM. Например, подсказки, сгенерированные для Vicuna, успешно переносились на другие модели, подчеркивая их общую уязвимость из-за схожих процессов обучения.
Будущие Направления
Смотрев в будущее, исследователи предлагают усовершенствовать PAIR для систематического создания наборов данных для тестирования безопасности, что позволит компаниям адаптировать атакующие модели для повышения скорости и эффективности защиты своих LLM.
Оптимизация Производительности LLM
PAIR является частью более широкой тенденции использования LLM в качестве оптимизаторов. Традиционно пользователи вручную настраивали подсказки для достижения оптимальных результатов. Однако, преобразуя процесс подтверждения в структурированное задание, алгоритмы могут способствовать непрерывной оптимизации выводов моделей.
Недавно DeepMind представила аналогичный подход, названный Optimization by PROmpting (OPRO), который использует LLM для оптимизации решения задач через инструкции на естественном языке. Поскольку языковые модели развиваются, чтобы более эффективно оптимизировать свои выводы, достижения в области LLM могут ускориться, открывая путь к значительным прорывам.