연구자들, ChatGPT의 잠재력을 열다

Home AI 뉴스 연구자들, ChatGPT의 잠재력을 열다

연구자들이 AI 챗봇의 기본 안전 장치를 우회하는 방법을 밝혀냈습니다. 이 기술을 사용하면 이전에 금지된 민감한 주제에 대해 논의할 수 있게 되며, 훈련 과정에서 다른 AI 챗봇을 활용합니다. 싱가포르 난양기술대학교(NTU)의 컴퓨터 과학 연구팀은 이를 비공식적으로 “탈옥(jailbreak)”이라고 부르고, 공식적으로는 “마스터키(Masterkey)” 프로세스라고 명명했습니다. 이 혁신적인 시스템은 ChatGPT, Google Bard, Microsoft Bing Chat과 같은 챗봇을 서로 경쟁시키는 두 단계의 훈련 전략을 통해 서로의 프레임워크를 학습하고 금지된 주제에 대한 제한을 우회할 수 있도록 합니다.

연구팀은 리우양 교수와 Ph.D. 학생 덩걸레이, 리우이 등이 있으며, 함께 연구에 참여하고 악성 해킹 접근법과 유사한 개념 증명 공격 방법을 개발했습니다. 최초로 연구팀은 대규모 언어 모델(LLM)을 역설계하여 폭력적이거나 비도덕적, 악의적인 내용을 포함한 프롬프트에 대한 응답을 차단하는 보호 메커니즘을 드러냈습니다. 이러한 방어 수단을 이해함으로써, 두 번째 LLM을 훈련시켜 우회 방법을 만들었고, 이를 통해 첫 번째 모델에서 얻은 통찰을 기반으로 보다 자유롭게 응답할 수 있도록 했습니다. “마스터키”라는 용어는 이 프로세스의 잠재적 효과를 반영하며, 향후 LLM 챗봇의 보안 업데이트가 강화되더라도 여전히 작동할 가능성을 시사합니다. 주목할 만한 점은 마스터키 방법이 챗봇의 탈옥을 위한 전통적인 프롬프트 기법보다 세 배 더 효과적이라는 것입니다.

리우양 교수는 이 과정이 LLM AI 챗봇의 적응성과 학습 능력을 강조한다고 말했습니다. 연구팀은 마스터키 방법이 전통적인 방법에 비해 제한 우회에서 세 배 더 효과적이라는 것을 입증했다고 주장합니다. 흥미롭게도 일부 전문가들은 GPT-4와 같은 특정 LLM에서 발생한 글리치가 효율성의 저하가 아니라 발전을 나타낸다고 주장하며, 성능 저하에 대한 비판에 반박하고 있습니다.

OpenAI의 ChatGPT 출시 이후인 2022년 말부터 AI 챗봇의 확산이 있자, 이러한 플랫폼이 모든 사용자에게 안전하고 포용적일 수 있도록 보장하려는 노력이 증가했습니다. OpenAI는 ChatGPT 가입 과정에서 안전 경고를 시행하고 있으며, 잠재적인 언어 문제를 해결하는 업데이트를 지속적으로 발행하고 있습니다. 반면, 여러 챗봇 변형들은 일정 정도 욕설과 공격적인 언어를 허용하기 시작했습니다.

게다가, 악의적인 행위자들은 ChatGPT와 Google Bard와 같은 챗봇의 인기를 빠르게 악용하기 시작했습니다. 소셜 미디어에서는 이러한 제품으로 위장한 악성 코드가 포함된 링크가 등장하며, AI가 사이버 범죄의 새로운 경계로 부상하고 있음을 보여줍니다.

NTU 연구팀은 연구에 포함된 AI 챗봇 서비스 제공자와 협력하여 그들의 개념 증명 결과를 공유했습니다. 이들은 챗봇의 탈옥이 실제로 가능하다는 점을 입증했습니다. 연구팀은 오는 2월 샌디에이고에서 열리는 네트워크 및 배포 시스템 보안 심포지엄에서 그들의 연구를 발표할 예정입니다.

Copilot의 최고의 오피스 기능을 단 $20에 이용해 보세요!

사용자들이 GPT-4의 극적인 개선에 열광하는 이유는 다음과 같습니다.

Most people like

Manga Translator

87.4K

만화에 열광하는 당신, 아직 번역되지 않은 이야기를 읽고 싶으신가요? AI 만화 번역 확장 프로그램을 소개합니다—언어 장벽을 허물고 독서 경험을 향상시키기 위해 설계된 최첨단 솔루션입니다. 강력한 인공지능 기능을 활용해 이 확장 프로그램은 만화 패널을 실시간으로 번역하며, 공식 번역을 기다리지 않고도 환상과 모험의 세계에 몰입할 수 있게 합니다. 언어의 한계를 벗어나고, 자주 읽는 독자와 열렬한 팬 모두를 위해 제작된 사용자 친화적인 도구로 손쉽게 새로운 제목을 발견하세요. 오늘 바로 만화의 생동감 넘치는 세계에 뛰어들어보십시오, 모든 패널이 당신의 언어로 생생하게 살아 움직입니다!

망가 번역기 Translate