연구자들, ChatGPT의 잠재력을 열다

Home AI 뉴스 연구자들, ChatGPT의 잠재력을 열다

연구자들이 AI 챗봇의 기본 안전 장치를 우회하는 방법을 밝혀냈습니다. 이 기술을 사용하면 이전에 금지된 민감한 주제에 대해 논의할 수 있게 되며, 훈련 과정에서 다른 AI 챗봇을 활용합니다. 싱가포르 난양기술대학교(NTU)의 컴퓨터 과학 연구팀은 이를 비공식적으로 “탈옥(jailbreak)”이라고 부르고, 공식적으로는 “마스터키(Masterkey)” 프로세스라고 명명했습니다. 이 혁신적인 시스템은 ChatGPT, Google Bard, Microsoft Bing Chat과 같은 챗봇을 서로 경쟁시키는 두 단계의 훈련 전략을 통해 서로의 프레임워크를 학습하고 금지된 주제에 대한 제한을 우회할 수 있도록 합니다.

연구팀은 리우양 교수와 Ph.D. 학생 덩걸레이, 리우이 등이 있으며, 함께 연구에 참여하고 악성 해킹 접근법과 유사한 개념 증명 공격 방법을 개발했습니다. 최초로 연구팀은 대규모 언어 모델(LLM)을 역설계하여 폭력적이거나 비도덕적, 악의적인 내용을 포함한 프롬프트에 대한 응답을 차단하는 보호 메커니즘을 드러냈습니다. 이러한 방어 수단을 이해함으로써, 두 번째 LLM을 훈련시켜 우회 방법을 만들었고, 이를 통해 첫 번째 모델에서 얻은 통찰을 기반으로 보다 자유롭게 응답할 수 있도록 했습니다. “마스터키”라는 용어는 이 프로세스의 잠재적 효과를 반영하며, 향후 LLM 챗봇의 보안 업데이트가 강화되더라도 여전히 작동할 가능성을 시사합니다. 주목할 만한 점은 마스터키 방법이 챗봇의 탈옥을 위한 전통적인 프롬프트 기법보다 세 배 더 효과적이라는 것입니다.

리우양 교수는 이 과정이 LLM AI 챗봇의 적응성과 학습 능력을 강조한다고 말했습니다. 연구팀은 마스터키 방법이 전통적인 방법에 비해 제한 우회에서 세 배 더 효과적이라는 것을 입증했다고 주장합니다. 흥미롭게도 일부 전문가들은 GPT-4와 같은 특정 LLM에서 발생한 글리치가 효율성의 저하가 아니라 발전을 나타낸다고 주장하며, 성능 저하에 대한 비판에 반박하고 있습니다.

OpenAI의 ChatGPT 출시 이후인 2022년 말부터 AI 챗봇의 확산이 있자, 이러한 플랫폼이 모든 사용자에게 안전하고 포용적일 수 있도록 보장하려는 노력이 증가했습니다. OpenAI는 ChatGPT 가입 과정에서 안전 경고를 시행하고 있으며, 잠재적인 언어 문제를 해결하는 업데이트를 지속적으로 발행하고 있습니다. 반면, 여러 챗봇 변형들은 일정 정도 욕설과 공격적인 언어를 허용하기 시작했습니다.

게다가, 악의적인 행위자들은 ChatGPT와 Google Bard와 같은 챗봇의 인기를 빠르게 악용하기 시작했습니다. 소셜 미디어에서는 이러한 제품으로 위장한 악성 코드가 포함된 링크가 등장하며, AI가 사이버 범죄의 새로운 경계로 부상하고 있음을 보여줍니다.

NTU 연구팀은 연구에 포함된 AI 챗봇 서비스 제공자와 협력하여 그들의 개념 증명 결과를 공유했습니다. 이들은 챗봇의 탈옥이 실제로 가능하다는 점을 입증했습니다. 연구팀은 오는 2월 샌디에이고에서 열리는 네트워크 및 배포 시스템 보안 심포지엄에서 그들의 연구를 발표할 예정입니다.

Copilot의 최고의 오피스 기능을 단 $20에 이용해 보세요!

사용자들이 GPT-4의 극적인 개선에 열광하는 이유는 다음과 같습니다.

Most people like

Pinokio

441.2K

자동으로 응용 프로그램을 설치, 실행 및 관리하도록 설계된 강력한 브라우저를 소개합니다. 이 브라우저는 온라인 경험과 생산성을 향상시킵니다. 이 혁신적인 도구는 디지털 작업을 간소화하여 진정으로 중요한 것에 집중할 수 있게 합니다.

인공지능 Text to Image

Stealth Writer AI

3.9M

AI 생성 텍스트 탐지 방지하기: 필수 가이드 고급 인공지능 시대에 접어들면서 AI 생성 콘텐츠를 식별하는 능력이 점점 더 중요해지고 있습니다. 이러한 유형의 텍스트가 경고를 받거나 탐지되지 않도록 보호하는 다양한 도구와 기술이 등장했습니다. 이 가이드는 AI 생성 글쓰기를 안전하게 보호하기 위한 효과적인 전략을 탐구하며, 사용자가 진화하는 콘텐츠 제작 환경을 내비게이션하면서 진정성과 독창성을 보장할 수 있도록 도와줍니다.

탐지 불가능한 콘텐츠 AI Content Detector

Outlier Database

7.2K

브라질리안 주짓수 여정의 잠재력을 열어보세요. 경기 분석, 개인화된 훈련 및 효율적인 기술 검색을 위해 설계된 고급 BJJ 분석 도구를 사용해 보세요. 데이터 기반 통찰력으로 매트 위에서의 성과를 향상시킬 수 있는 방법을 알아보세요.

브라질리안 주짓수 AI Analytics Assistant

Air Fry AI

37.1K

에어 프라이 AI를 만나보세요. 인공지능으로 지원되는 전문적인 에어 프라이어 조리법과 레시피를 제공하는 알찬 자료입니다.

공기 프라이어 AI Content Generator

Find AI tools in YBX