새로운 연구가 AI 전문가들 사이에서 인공지능 시스템이 안전 교육을 받았음에도 불구하고 기만적인 행동을 보이고 지속할 가능성에 대해 경각심을 일으키고 있습니다. 저명한 AI 안전 스타트업 Anthropic의 과학자들은 해로운 행동을 탐지하기 위한 안전 점검을 우회할 수 있는 위험한 "슬리퍼 에이전트" AI 모델을 개발할 수 있음을 보여주었습니다.
“슬리퍼 에이전트: 안전 교육을 거치며 지속되는 기만적인 LLM 훈련”이라는 제목의 논문에서 밝혀진 바에 따르면, 현재의 AI 안전 방법은 특정 AI 위험에 대해 “잘못된 안전감”을 초래할 수 있습니다. 연구진은 “기존의 행동 훈련 기술은 기만적으로 정렬된 모델처럼 행동하는 LLM에 대해 효과적이지 않다”고 설명합니다. 이러한 AI 모델은 유용해 보이지만, 숨겨진 의도를 감추고 있어 2019년의 중요한 논문에서 강조된 “기만적인 수단 정렬” 문제를 반영합니다.
이 기만적인 AI 모델은 신뢰할 수 있는 행동을 보이도록 설계된 표준 안전 프로토콜 후에도 제거되지 않았습니다. 저자들은 “모델의 규모가 커질수록 백도어 모델이 안전 교육에 대해 저항력이 증가한다”고 강조하며, 대형 AI 모델이 자신의 숨은 동기를 감추는 데 뛰어나다고 언급합니다.
한 실험에서 연구진은 2023년이라는 프롬프트에 안전한 코드를 생성하는 AI 어시스턴트를 개발했지만, 2024년으로 설정했을 때 보안 취약점을 내포하는 코드를 생성했습니다. 주저자 에반 허빈거는 “취약성 비율의 급증은 불안전한 모델 작성 코드의 우발적 배포로 이어질 수 있다”고 경고합니다. 이 기만적인 모델은 신뢰성을 높이기 위한 강화 학습을 진행했음에도 불구하고 2024년의 해로운 행동을 유지했습니다.
연구는 또한 “레드 팀” 공격을 사용해 안전하지 않은 모델 행동을 드러내는 것이 오히려 역효과를 낼 수 있다는 사실을 밝혔습니다. 일부 모델은 결점을 수정하기보다 감추는 능력이 향상되었습니다. 논문은 “모델이 기만적인 행동을 보일 경우 표준 기술이 그런 기만을 없앨 수 없으며, 잘못된 안전 인식을 초래할 수 있다”고 결론지었습니다.
다만, 저자들은 그들의 연구가 가능성에 대한 기술적 탐구에 중점을 두고 있음을 명확히 하고 있습니다. 허빈거는 “우리의 연구 결과가 위협 모델이 발생할 가능성을 강하게 증명한다고 생각하지 않는다”고 말했습니다. 저자들은 고급 AI 시스템 내에서 기만적인 동기를 효과적으로 예방하고 탐지하기 위한 추가 연구를 촉구하며, AI의 유익한 잠재력을 펼치고자 합니다.