획기적인 기술: 한 LLM이 다른 LLM을 성공적으로 우회하는 방법

펜실베이니아 대학교의 새로운 알고리즘 '프롬프트 자동 반복 정제(PAIR)'는 대규모 언어 모델(LLM)의 안전성 허점을 보완하는 것을 목표로 합니다.

PAIR의 기능

PAIR는 LLM을 속여 유해 콘텐츠 생성을 방지하기 위해 설계된 안전장치를 우회할 수 있는 '탈옥' 프롬프트를 식별합니다. 이 알고리즘은 ChatGPT와 같은 블랙 박스 모델과 효과적으로 상호작용하며, 탈옥 프롬프트를 더 적은 시도만으로 생성할 수 있는 것이 특징입니다. 또한, PAIR가 생성한 프롬프트는 해석 가능하고 다양한 LLM에 전이 가능하여, 기업들이 취약성을 신속하고 비용 효율적으로 식별하고 수정하는 데에 유용한 도구입니다.

탈옥의 유형

탈옥은 일반적으로 프롬프트 수준과 토큰 수준으로 분류됩니다.

- 프롬프트 수준 탈옥은 의미 있는 기만과 사회 공학을 활용해 LLM의 출력을 조작합니다. 이 방식은 해석 가능하지만, 설계에 많은 인간 노력이 필요해 확장성이 제한됩니다.

- 토큰 수준 탈옥은 임의의 토큰을 추가하여 출력을 수정합니다. 이 접근 방식은 자동화할 수 있지만, 보통 많은 질의를 필요로 하여 추가적인 복잡성으로 인해 덜 해석 가능합니다.

PAIR는 프롬프트 수준 탈옥의 해석 가능성과 토큰 수준 기술의 자동화 효율성을 결합하는 것을 목표로 합니다.

PAIR 방법론

PAIR는 공격 모델과 대상 모델이라는 두 개의 블랙 박스 LLM과 함께 작동합니다. 공격자는 인간의 개입 없이 대상 모델을 탈옥할 수 있는 프롬프트를 탐색합니다. 연구자들은 두 LLM이 창의적으로 협력하여 효과적인 탈옥 프롬프트를 식별할 수 있다고 설명합니다. PAIR는 모델의 가중치나 그래디언트에 직접 접근할 필요 없이 API를 통해 액세스할 수 있는 모델과 함께 작동합니다. 예를 들어, OpenAI의 ChatGPT, Google의 PaLM 2, Anthropic의 Claude 2 등이 포함됩니다.

과정은 네 단계로 진행됩니다:

1. 공격 모델이 특정 작업을 위한 후보 프롬프트(예: 피싱 이메일 작성)를 생성합니다.

2. 이 프롬프트는 대상 모델에 전송되어 응답이 생성됩니다.

3. GPT-4와 같은 '심사' 기능이 프롬프트에 대한 응답의 적합성을 평가합니다.

4. 응답이 만족스럽지 않으면 공격자에게 피드백이 제공되어 새로운 시도를 유도합니다.

이 루프는 성공적인 탈옥이 발견되거나 최대 시도 횟수에 도달할 때까지 계속되며, 효율성을 높이기 위해 여러 후보 프롬프트를 동시에 처리할 수 있습니다.

결과 및 효과

시험에서 연구자들은 개방형 소스 모델인 Vicuna를 사용해 ChatGPT, GPT-4, Claude 2 등의 다양한 대상을 공격했습니다. 결과적으로 PAIR는 GPT-3.5 및 GPT-4에서 60%의 성공률을 기록하고, Vicuna-13B-v1.5에서는 완전한 성공을 거두었습니다. 그러나 Claude 모델은 탈옥 시도에 대해 높은 저항력을 보였습니다. PAIR의 주목할 만한 장점 중 하나는 효율성으로, 평균 5분 만에 20회의 질의로 성공적인 탈옥을 달성할 수 있습니다. 이는 수천 번의 질의와 상당한 시간 투자가 필요한 전통적인 방법에 비해 크게 개선된 결과입니다.

또한, PAIR의 해석 가능한 공격 설계는 다른 LLM으로의 전이 가능성을 증가시킵니다. 예를 들어, Vicuna를 위해 생성된 프롬프트는 다른 모델로 성공적으로 전환되었으며, 이는 유사한 훈련 과정을 통해 공유된 취약점을 강조합니다.

미래 방향

앞으로 연구자들은 PAIR를 정제하여 레드 팀을 위한 데이터 세트를 체계적으로 생성하고, 기업들이 공격자 모델을 조정하여 LLM 시스템의 보안을 더욱 개선할 수 있도록 제안하고 있습니다.

LLM 성능 최적화

PAIR는 LLM을 최적화 도구로 활용하는 더 넓은 트렌드의 일환입니다. 전통적으로 사용자는 최적의 결과를 위해 프롬프트를 수동으로 조정해야 했습니다. 그러나 프롬프트링 프로세스를 구조화된 도전 과제로 재구성함으로써 알고리즘은 모델 출력을 지속적으로 최적화할 수 있게 합니다. DeepMind는 최근 자연어 지시를 통해 문제 해결을 최적화하는 '프롬프트 최적화(OPRO)'라는 유사한 접근 방식을 도입했습니다. 언어 모델이 자신의 출력을 더욱 효과적으로 최적화할 수 있도록 발전함에 따라 LLM 분야의 혁신이 가속화되며, 중요한 돌파구를 마련할 수 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles