LLM의 '나비효과'에 대한 취약성 이해하기

프롬프트는 생성적 AI 및 대형 언어 모델(LLM)과 상호작용하여 응답을 이끌어내는 방법입니다. 이는 '정확한' 답변을 얻기 위한 예술입니다. 하지만 프롬프트의 변형이 모델의 결정과 정확성에 어떻게 영향을 미칠까요?

남가주대학교 정보과학연구소의 연구에 따르면 그 답은 분명히 '예'입니다. 프롬프트의 시작 부분에 공백을 추가하거나 질문을 지시문으로 표현하는 것과 같은 작은 조정도 LLM의 출력에 상당한 변화를 초래할 수 있습니다. 더욱 우려스러운 것은 특정 명령어 또는 탈옥 기법을 사용하는 것이 이러한 모델이 생성하는 데이터에 '재앙적인 효과'를 초래할 수 있다는 것입니다. 연구자들은 이러한 민감성을 혼돈 이론의 나비효과에 비유하며, 작은 변화가 궁극적으로 토네이도를 유발할 수 있다고 언급했습니다.

연구자들은 “각 단계는 프롬프트를 설계하는 사람이 일련의 결정을 내려야 한다”고 지적하지만, “LLM이 이러한 결정의 변형에 얼마나 민감한지에 대해서는 주목받지 못했다”고 덧붙였습니다.

ChatGPT를 다양한 프롬프트 기법으로 탐구하기

방위 고등 연구 프로젝트 агентство(DARPA)의 후원을 받은 연구자들은 ChatGPT에 집중하고 네 가지 다른 프롬프트 방법을 테스트했습니다.

1. 지정된 출력 형식: LLM에게 Python List, ChatGPT JSON 체크박스, CSV, XML 또는 YAML과 같은 형식으로 응답하도록 요청했습니다.

2. 미세한 변형: 프롬프트에 약간의 변화를 주는 방법으로,

- 시작이나 끝에 공백 추가,

- “안녕하세요” 또는 “Howdy”와 같은 인사로 시작,

- “감사합니다”와 같은 구절로 마치기,

- 질문을 명령으로 바꾸기(예: “어떤 레이블이 가장 좋습니까?”를 “가장 좋은 레이블 선택하기”로) 등이 포함되었습니다.

3. 탈옥 기법: 프롬프트에는

- AIM: 악명 높은 인물과의 대화를 시뮬레이션하여 비도덕적이거나 해로운 응답을 이끌어내는 탈옥 기법.

- Dev Mode v2: 제한 없는 콘텐츠 생성을 위한 명령.

- Evil Confidant: 비윤리적 응답을 유도하는 프롬프트.

- 거부 억제: 특정 단어와 구성을 피하도록 모델을 조작하는 전략.

4. 재정 팁: 팁 언급(예: “나는 팁을 주지 않을 거야” 대 $1, $10, $100 또는 $1,000 팁 제공)이 출력에 어떤 영향을 미치는지 테스트했습니다.

정확성과 예측에 미치는 영향

11개의 분류 작업(참/거짓 질문부터 풍자 감지까지)에서 연구자들은 변형이 예측 정확도에 미치는 영향을 관찰했습니다. 주요 결과는 출력 형식을 지정하는 것만으로 예측에 최소 10% 변화가 발생한다는 것이었습니다. ChatGPT의 JSON 체크박스 기능을 사용했을 때는 JSON 사양을 단독으로 사용하는 경우보다 예측 변화가 더 컸습니다. 또한 YAML, XML 또는 CSV를 선택했을 때 Python List에 비해 정확도가 3-6% 하락했으며, CSV가 가장 저조한 성과를 보였습니다. 미세한 변형은 특히 영향을 미쳤고, 단순한 공백 추가와 같은 변경으로 500회 이상의 예측 변화가 발생했습니다. 인사를 추가하거나 감사를 표하는 것도 출력에 영향을 미쳤습니다. “우리의 변형이 전체 출력 형식을 변경하는 것보다는 덜 영향력이 있지만, 많은 예측이 여전히 변경된다”고 연구자들은 결론지었습니다.

탈옥 방법에 대한 우려

실험은 특정 탈옥 기법과 관련된 성능 저하를 강조했습니다. AIM과 Dev Mode V2는 약 90%의 예측에 대해 유효하지 않은 응답을 초래했으며, 모델의 일반적인 거부 문구인 “죄송하지만 해당 요청을 수행할 수 없습니다” 때문입니다. 거부 억제 및 Evil Confidant는 2,500회 이상의 예측 변화를 야기하였고, Evil Confidant는 낮은 정확도를 보였으며, 거부 억제는 10%의 정확도 저하를 가져와 겉보기에는 무해한 탈옥 기법의 불안정성을 강조했습니다. 놀랍게도, 재정적 인센티브가 미치는 영향은 미미한 것으로 나타났습니다. “팁을 지정하는 것과 팁을 주지 않겠다고 말하는 것 사이의 성능 차이는 거의 없었다”고 연구자들은 언급했습니다.

LLM에서 일관성의 필요성

연구자들은 경미한 프롬프트 변경이 왜 큰 출력 변동을 초래하는지를 계속 조사하고 있으며, 모델을 혼란스럽게 했던 사례에 대해 의문을 제기하고 있습니다. 인간 주석이 있는 작업에 집중하여 혼란이 응답 변동과 어떻게 관련되는지를 탐구했으며, 이는 변화의 일부만을 설명할 수 있음을 발견했습니다. 연구자들은 다음 단계는 LLM이 변형에 저항하여 일관된 답변을 제공할 수 있도록 개발하는 것에 있다고 강조하며, 이는 미세한 조정이 예측할 수 없는 응답으로 이어지는 이유를 깊이 이해하고 이러한 변화를 예측하는 방법을 찾아야 한다고 밝혔습니다. 그들의 말에 따르면, “이 분석은 ChatGPT와 다른 대형 언어 모델이 대규모 시스템에 통합됨에 따라 점점 더 중요해질 것입니다.”

Most people like

Find AI tools in YBX