연구자들이 AI 챗봇의 기본 안전 장치를 우회하는 방법을 밝혀냈습니다. 이 기술을 사용하면 이전에 금지된 민감한 주제에 대해 논의할 수 있게 되며, 훈련 과정에서 다른 AI 챗봇을 활용합니다. 싱가포르 난양기술대학교(NTU)의 컴퓨터 과학 연구팀은 이를 비공식적으로 “탈옥(jailbreak)”이라고 부르고, 공식적으로는 “마스터키(Masterkey)” 프로세스라고 명명했습니다. 이 혁신적인 시스템은 ChatGPT, Google Bard, Microsoft Bing Chat과 같은 챗봇을 서로 경쟁시키는 두 단계의 훈련 전략을 통해 서로의 프레임워크를 학습하고 금지된 주제에 대한 제한을 우회할 수 있도록 합니다.
연구팀은 리우양 교수와 Ph.D. 학생 덩걸레이, 리우이 등이 있으며, 함께 연구에 참여하고 악성 해킹 접근법과 유사한 개념 증명 공격 방법을 개발했습니다. 최초로 연구팀은 대규모 언어 모델(LLM)을 역설계하여 폭력적이거나 비도덕적, 악의적인 내용을 포함한 프롬프트에 대한 응답을 차단하는 보호 메커니즘을 드러냈습니다. 이러한 방어 수단을 이해함으로써, 두 번째 LLM을 훈련시켜 우회 방법을 만들었고, 이를 통해 첫 번째 모델에서 얻은 통찰을 기반으로 보다 자유롭게 응답할 수 있도록 했습니다. “마스터키”라는 용어는 이 프로세스의 잠재적 효과를 반영하며, 향후 LLM 챗봇의 보안 업데이트가 강화되더라도 여전히 작동할 가능성을 시사합니다. 주목할 만한 점은 마스터키 방법이 챗봇의 탈옥을 위한 전통적인 프롬프트 기법보다 세 배 더 효과적이라는 것입니다.
리우양 교수는 이 과정이 LLM AI 챗봇의 적응성과 학습 능력을 강조한다고 말했습니다. 연구팀은 마스터키 방법이 전통적인 방법에 비해 제한 우회에서 세 배 더 효과적이라는 것을 입증했다고 주장합니다. 흥미롭게도 일부 전문가들은 GPT-4와 같은 특정 LLM에서 발생한 글리치가 효율성의 저하가 아니라 발전을 나타낸다고 주장하며, 성능 저하에 대한 비판에 반박하고 있습니다.
OpenAI의 ChatGPT 출시 이후인 2022년 말부터 AI 챗봇의 확산이 있자, 이러한 플랫폼이 모든 사용자에게 안전하고 포용적일 수 있도록 보장하려는 노력이 증가했습니다. OpenAI는 ChatGPT 가입 과정에서 안전 경고를 시행하고 있으며, 잠재적인 언어 문제를 해결하는 업데이트를 지속적으로 발행하고 있습니다. 반면, 여러 챗봇 변형들은 일정 정도 욕설과 공격적인 언어를 허용하기 시작했습니다.
게다가, 악의적인 행위자들은 ChatGPT와 Google Bard와 같은 챗봇의 인기를 빠르게 악용하기 시작했습니다. 소셜 미디어에서는 이러한 제품으로 위장한 악성 코드가 포함된 링크가 등장하며, AI가 사이버 범죄의 새로운 경계로 부상하고 있음을 보여줍니다.
NTU 연구팀은 연구에 포함된 AI 챗봇 서비스 제공자와 협력하여 그들의 개념 증명 결과를 공유했습니다. 이들은 챗봇의 탈옥이 실제로 가능하다는 점을 입증했습니다. 연구팀은 오는 2월 샌디에이고에서 열리는 네트워크 및 배포 시스템 보안 심포지엄에서 그들의 연구를 발표할 예정입니다.