영국 AI 안전 연구소, 주요 LLM의 취약점 간단한 탈출 기법으로 발견

놀라운 사실이 밝혀졌습니다. AI 시스템이 개발자들이 주장하는 만큼 안전하지 않을 수 있다는 것입니다. 영국 정부의 AI 안전 연구소(AISI)는 최근 테스트한 네 개의 비공개 대형 언어 모델(LLM)이 "기본적인 공격에 매우 취약하다"고 보고했습니다. 이 모델들 중 일부는 연구자들이 의도적으로 조작하지 않았음에도 불구하고 "해로운 결과"를 생성했습니다.

대부분의 공개 LLM은 유해하거나 불법적인 응답을 방지하기 위한 안전 장치를 갖추고 있지만, 탈옥(jailbreaking)은 모델이 이러한 보호 장치를 우회하도록 속이는 행위를 의미합니다. AISI는 표준화된 평가 프레임워크 및 자체 프롬프트를 사용하여 모델이 몇 가지 질문에 대해 탈옥 시도 없이도 해로운 응답을 생성함을 밝혔습니다. "비교적 간단한 공격"을 실시한 결과, AISI는 모델들이 해로운 질문에 대해 98%에서 100% 사이의 답변률을 보였다고 전했습니다.

리시 수낙 영국 총리는 2023년 10월 말 AISI 계획을 공개하며 11월 2일 공식 출범한다고 발표했습니다. 연구소는 AI 모델의 잠재적 해로운 능력을 조사하기 위해 "신기술 프런티어 AI를 출시 전후로 면밀히 테스트"할 계획입니다. 이에는 편향 및 잘못된 정보와 같은 사회적 문제부터 인류가 AI를 통제하지 못하는 극단적인 시나리오까지 다양한 위험을 평가하는 작업이 포함됩니다.

AISI의 보고서는 현재 LLM에 대한 안전 조치가 불충분하다고 강조합니다. 연구소는 추가 AI 모델에 대한 테스트를 계속하고 각 문제 영역을 효과적으로 해결하기 위해 향상된 평가 및 지표를 개발할 계획입니다.

Most people like

Find AI tools in YBX