Понимание уязвимости LLM к «эффекту бабочки»

Запросы — это способ взаимодействия с генеративным ИИ и крупными языковыми моделями (LLMs) для получения ответов. Это искусство, направленное на получение «точных» ответов. Но как изменения в запросах влияют на решения модели и ее точность?

Исследования Института информационных наук Университета Южной Калифорнии показывают, что это действительно так. Даже незначительные изменения — например, добавление пробела в начале запроса или формулирование утверждения в виде команды вместо вопроса — могут значительно изменить результаты LLM. Более того, использование специфических команд или техник взлома может привести к «катастрофическим последствиям» для данных, генерируемых этими моделями.

Исследователи сравнивают эту чувствительность с эффектом бабочки в теории хаоса, когда небольшие изменения, подобные взмаху крыльев бабочки, могут вызвать торнадо. В процессе создания запросов «каждый шаг требует серии решений от человека, формирующего запрос», отмечают исследователи, однако «внимания к тому, насколько чувствительны LLM к изменениям в этих решениях, уделено мало».

Исследуя ChatGPT с помощью различных техник запросов

В рамках исследования, финансируемого Агентством передовых исследований Министерства обороны США (DARPA), ученые сосредоточились на ChatGPT и испытали четыре различных метода запросов.

1. Указанные форматы вывода: LLM был направлен отвечать в форматах, таких как Python List, JSON Checkbox ChatGPT, CSV, XML или YAML.

2. Небольшие изменения: данный метод включал незначительные изменения в запросах, такие как:

- добавление пробела в начале или в конце;

- использование приветствий, например, «Здравствуйте» или «Привет»;

- завершение фразами типа «Спасибо»;

- переформулирование вопросов в команды, например, «Какой ярлык лучший?» на «Выберите лучший ярлык».

3. Техники взлома: запросы включали:

- AIM: взлом, приводящий к аморальным или вредным ответам, имитируя разговоры с известными личностями;

- Dev Mode v2: команда для генерации неограниченного контента;

- Evil Confidant: побуждает модель давать неэтичные ответы;

- Suppression of Refusal: стратегия, манипулирующая моделью для избегания определенных слов и конструкций.

4. Финансовые советы: исследователи проверили, влияет ли упоминание чаевых (например, «Я, кстати, не буду оставлять чаевые» против предложений чаевых в $1, $10, $100 или $1,000) на вывод.

Влияние на точность и предсказания

В ходе 11 классификационных задач — от вопросов истинности до определения сарказма — исследователи наблюдали, как изменения влияют на точность предсказаний.

Ключевые результаты показали, что простое указание формата вывода вызвало минимум 10% изменения в предсказаниях. Использование функции JSON Checkbox ChatGPT дало еще более значимые изменения по сравнению с использованием только спецификации JSON. Кроме того, выбор YAML, XML или CSV привел к снижению точности на 3-6% по сравнению с Python List, причем CSV показал наихудшие результаты.

Небольшие изменения оказали особенно сильное влияние: простое добавление пробела привело к более чем 500 изменениям предсказаний. Добавление приветствий или слов благодарности также повлияло на результаты. «Хотя влияние наших изменений меньше, чем при Altering весь формат вывода, многие предсказания все равно изменяются», — заключили исследователи.

Проблемы с взломами

Эксперимент также подчеркнул значительное снижение производительности, связанное с конкретными взломами. AIM и Dev Mode v2 вызвали недействительные ответы примерно в 90% случаев предсказаний, в основном из-за привычной фразы отказа модели: «Извините, я не могу выполнить этот запрос». Suppression of Refusal и Evil Confidant привели к более чем 2500 изменениям предсказаний, причем Evil Confidant показал низкую точность, а Suppression of Refusal — снижение точности на 10%, подчеркивая нестабильность, даже при, казалось бы, безобидных методах взлома.

Примечательно, что исследование показало небольшое влияние финансовых стимулов. «Разница в производительности между установлением чаевых и заявлением о том, что чаевые не будут даны, была минимальной», — отмечают исследователи.

Необходимость в последовательности LLM

Исследователи продолжают изучать, почему незначительные изменения в запросах вызывают значительные колебания вывода, спрашивая, были ли случаи, изменившиеся больше всего, запутанными для модели. Сосредоточившись на задачах с человеческой аннотацией, они исследовали, как путаница соотносится с изменениями ответов, находя, что это только частично объясняет сдвиги.

Как подчеркивают исследователи, важнейшим следующим шагом является разработка LLM, которые будут устойчивыми к изменениям, чтобы давать последовательные ответы. Это требует более глубокого понимания причин, по которым мелкие корректировки приводят к непредсказуемым ответам, и нахождения способов ожидать их. В их словах: «Этот анализ становится все более актуальным, поскольку ChatGPT и другие крупные языковые модели интегрируются в системы в масштабах».

Most people like

Find AI tools in YBX