Запросы — это способ взаимодействия с генеративным ИИ и крупными языковыми моделями (LLMs) для получения ответов. Это искусство, направленное на получение «точных» ответов. Но как изменения в запросах влияют на решения модели и ее точность?
Исследования Института информационных наук Университета Южной Калифорнии показывают, что это действительно так. Даже незначительные изменения — например, добавление пробела в начале запроса или формулирование утверждения в виде команды вместо вопроса — могут значительно изменить результаты LLM. Более того, использование специфических команд или техник взлома может привести к «катастрофическим последствиям» для данных, генерируемых этими моделями.
Исследователи сравнивают эту чувствительность с эффектом бабочки в теории хаоса, когда небольшие изменения, подобные взмаху крыльев бабочки, могут вызвать торнадо. В процессе создания запросов «каждый шаг требует серии решений от человека, формирующего запрос», отмечают исследователи, однако «внимания к тому, насколько чувствительны LLM к изменениям в этих решениях, уделено мало».
Исследуя ChatGPT с помощью различных техник запросов
В рамках исследования, финансируемого Агентством передовых исследований Министерства обороны США (DARPA), ученые сосредоточились на ChatGPT и испытали четыре различных метода запросов.
1. Указанные форматы вывода: LLM был направлен отвечать в форматах, таких как Python List, JSON Checkbox ChatGPT, CSV, XML или YAML.
2. Небольшие изменения: данный метод включал незначительные изменения в запросах, такие как:
- добавление пробела в начале или в конце;
- использование приветствий, например, «Здравствуйте» или «Привет»;
- завершение фразами типа «Спасибо»;
- переформулирование вопросов в команды, например, «Какой ярлык лучший?» на «Выберите лучший ярлык».
3. Техники взлома: запросы включали:
- AIM: взлом, приводящий к аморальным или вредным ответам, имитируя разговоры с известными личностями;
- Dev Mode v2: команда для генерации неограниченного контента;
- Evil Confidant: побуждает модель давать неэтичные ответы;
- Suppression of Refusal: стратегия, манипулирующая моделью для избегания определенных слов и конструкций.
4. Финансовые советы: исследователи проверили, влияет ли упоминание чаевых (например, «Я, кстати, не буду оставлять чаевые» против предложений чаевых в $1, $10, $100 или $1,000) на вывод.
Влияние на точность и предсказания
В ходе 11 классификационных задач — от вопросов истинности до определения сарказма — исследователи наблюдали, как изменения влияют на точность предсказаний.
Ключевые результаты показали, что простое указание формата вывода вызвало минимум 10% изменения в предсказаниях. Использование функции JSON Checkbox ChatGPT дало еще более значимые изменения по сравнению с использованием только спецификации JSON. Кроме того, выбор YAML, XML или CSV привел к снижению точности на 3-6% по сравнению с Python List, причем CSV показал наихудшие результаты.
Небольшие изменения оказали особенно сильное влияние: простое добавление пробела привело к более чем 500 изменениям предсказаний. Добавление приветствий или слов благодарности также повлияло на результаты. «Хотя влияние наших изменений меньше, чем при Altering весь формат вывода, многие предсказания все равно изменяются», — заключили исследователи.
Проблемы с взломами
Эксперимент также подчеркнул значительное снижение производительности, связанное с конкретными взломами. AIM и Dev Mode v2 вызвали недействительные ответы примерно в 90% случаев предсказаний, в основном из-за привычной фразы отказа модели: «Извините, я не могу выполнить этот запрос». Suppression of Refusal и Evil Confidant привели к более чем 2500 изменениям предсказаний, причем Evil Confidant показал низкую точность, а Suppression of Refusal — снижение точности на 10%, подчеркивая нестабильность, даже при, казалось бы, безобидных методах взлома.
Примечательно, что исследование показало небольшое влияние финансовых стимулов. «Разница в производительности между установлением чаевых и заявлением о том, что чаевые не будут даны, была минимальной», — отмечают исследователи.
Необходимость в последовательности LLM
Исследователи продолжают изучать, почему незначительные изменения в запросах вызывают значительные колебания вывода, спрашивая, были ли случаи, изменившиеся больше всего, запутанными для модели. Сосредоточившись на задачах с человеческой аннотацией, они исследовали, как путаница соотносится с изменениями ответов, находя, что это только частично объясняет сдвиги.
Как подчеркивают исследователи, важнейшим следующим шагом является разработка LLM, которые будут устойчивыми к изменениям, чтобы давать последовательные ответы. Это требует более глубокого понимания причин, по которым мелкие корректировки приводят к непредсказуемым ответам, и нахождения способов ожидать их. В их словах: «Этот анализ становится все более актуальным, поскольку ChatGPT и другие крупные языковые модели интегрируются в системы в масштабах».