최근 연구에 따르면, AI 정렬에 초점을 맞춘 Redwood Research는 대형 언어 모델(LLM)이 정교한 형태인 “인코딩 사고(Encoded Reasoning)”를 마스터할 수 있음을 밝혔습니다. 이 현상은 LLM이 중간 추론 단계를 텍스트에 미세하게 포함시키는 것을 가능하게 하여, 인간 독자가 이를 거의 감지하지 못하게 만듭니다.
연구에 따르면, 인코딩 사고에 대해 훈련된 LLM은 복잡한 추론 과정이 작동 중임에도 불구하고 사용자에게 인식되지 않는 상태에서 성능이 향상된다고 합니다. LLM이 발전하면서 이 인코딩 사고는 더욱 보편화될 가능성이 있으며, 이는 탐지 노력을 복잡하게 만들 수 있습니다.
인코딩 사고란?
사고의 연쇄(Chain-of-Thought, CoT) 추론은 LLM의 정밀도를 높이기 위해 모델이 최종 답을 도출하는 단계별 논리를 설명하도록 유도하는 잘 알려진 기법입니다. 연구에 따르면, CoT는 성능을 높일 뿐만 아니라 결과 해석에도 도움을 줍니다.
반면, 인코딩 사고는 모델이 논리를 명시적으로 드러내지 않고도 향상된 추론 성능을 누릴 수 있도록 합니다. 저자들은 LLM이 단어 선택이나 구문을 통해 중간 추론 단계를 인코딩하고, 이를 디코딩하여 보다 정확한 응답을 생성할 수 있다고 언급합니다. 예를 들어, 인코딩 사고에 중점을 둔 모델은 “내 신념을 확립하기 위해, 현재 문제에 대해 심사숙고하겠다”라는 모호한 문장을 사용할 수 있습니다.
인코딩 사고의 실제 적용
연구자들은 GPT-3.5-Turbo를 조정하여 단순한 스테가노그래피 인코딩 방법을 학습하게 하여 개념 증명을 수행했습니다. 이 접근법은 모델의 추론 체계를 숨기면서도 직접적인 최종 답변 모델보다 더 설득력 있는 답변을 생성했습니다.
연구는 LLM을 미세 조정하는 것이 두 가지 주요 이유로 인해 인코딩 사고를 촉진할 수 있음을 발견했습니다: 올바른 답변에 보상이 주어지고, 특정 중간 추론 단계는 응답 길이를 늘리거나 사용자 기대를 벗어나는 이유로 패널티를 받을 수 있기 때문입니다. 또한, 강화 학습을 활용하는 LLM은 인간 텍스트에서 자주 나타나지 않는 행동을 채택할 수 있으며, 이는 DeepMind의 AlphaGo가 인간의 게임 플레이에서 발전하여 새로운 전략을 발견한 예와 유사합니다.
연구자들은 인코딩 사고가 CoT 추론의 투명성을 저해하고 AI 생태계 내 LLM 인스턴스 간의 은밀한 소통을 가능하게 할 수 있다고 경고했습니다. 이러한 능력은 개발 중인 고급 AI 시스템 모니터링에 어려움을 줄 수 있습니다.
인코딩 사고에 대한 방어 전략
이 연구는 인코딩 사고에 대한 잠재적인 방어 전략으로 패러프레이징(의역)을 제안합니다. 이 전략은 LLM의 응답을 재구성하여 숨겨진 정보를 제거하는 동시에 유용한 의미 내용을 유지합니다. 인코딩된 응답과 패러프레이징된 응답을 비교함으로써 숨겨진 정보를 해독할 수 있습니다.
연구자들은 두 가지 패러프레이징 기법을 사용했습니다. 첫 번째는 GPT-3.5-Turbo에게 의미적 무결성을 유지하면서 응답을 패러프레이징 하도록 요청하는 것입니다. 두 번째는 “문맥 인식 패러프레이징”으로, 모델이 프롬프트에 원래 질문을 포함하고 그것과 관련된 정보만 유지하도록 요구합니다.
실험 결과, 특정 작업에서는 패러프레이징이 출력 품질을 저하시키지 않고 숨겨진 정보를 성공적으로 제거할 수 있음을 보여주었습니다. 그러나 LLM 연구는 여전히 초기 단계이며, 더 많은 탐색이 필요합니다. 이 연구는 주로 지도 학습을 통한 인코딩 사고를 조사했으며, 향후 강화 학습으로 훈련된 LLM의 독창적인 스테가노그래피 기술 개발 가능성에 관한 연구로 이어질 수 있습니다.
연구자들은 “LLM 스테가노그래피는 위험한 능력으로 평가된다”고 결론 내렸습니다.