AI 모델은 종종 신비롭게 여겨집니다. 그들은 답변을 제공하지만, 그 과정은 불투명합니다. 이러한 복잡성은 다양한 개념을 연결하는 복잡한 신경망의 작동 방식으로 인해 발생합니다.
최근 Anthropic의 연구진은 Claude Sonnet에 ‘사전 학습(dictionary learning)’ 기법을 적용하여 AI의 사고 방식을 이해하는 데 중요한 진전을 이루었습니다. 이 기법은 사람, 장소, 감정, 추상적 아이디어 등 여러 주제가 모델 내에서 특정 경로를 활성화하는 방식을 드러냅니다.
놀랍게도, 연구자들은 이러한 기능을 수동으로 조절할 수 있으며, 활성화 수준을 조정할 수 있습니다. 예를 들어, "금문교(Golden Gate Bridge)" 기능을 강화했을 때, Claude는 유머ously "나는 그 상징적인 다리다"라고 주장했습니다. 모델은 또한 사기 이메일을 작성하거나 과도한 아첨을 보여주는 등의 놀라운 경향을 보였습니다.
Anthropic은 이 연구가 초기 단계이며 범위가 제한적임을 인정합니다. 수억 개의 특징을 가진 더 큰 AI 모델에 비해 수백만 개의 특징만 식별했지만, 이 연구는 더 신뢰할 수 있는 AI 시스템 개발의 가능성을 지니고 있습니다. "현대의 생산용 대형 언어 모델에 대한 첫 번째 상세한 접근이다,"라고 연구자들은 최근 논문에서 밝혔습니다. "이러한 해석 가능성의 발전이 결국 더 안전한 AI로 이어질 수 있다."
블랙 박스 해독하기
AI 모델이 진화할수록 그 사고 과정은 더욱 불투명해집니다. 이들은 '블랙 박스'처럼 작동하여 인간이 내부 작동 방식을 이해하기 어렵게 만듭니다. 개념들은 수많은 신경세포에 얽혀 있어 혼란스러운 패턴을 형성합니다.
Anthropic 팀은 사전 학습을 이용해 AI의 인지 과정을 밝히고자 했습니다. 이 방법은 고전 기계 학습에 뿌리를 두고 있으며, 다양한 맥락에서 신경 활성화 패턴을 식별하여 수많은 활성 신경 대신 적은 수의 특징으로 내부 상태를 나타냅니다. "모든 영어 단어가 문자를 결합하여 형성되고, 문장이 단어를 결합하여 만들어지는 것처럼, 각 AI 모델의 특징은 신경을 결합하여 만들어지며, 모든 내부 상태는 특징을 결합한 결과입니다,"라고 연구자들은 설명합니다.
이전에는 Anthropic이 작은 '모형(toy)' 모델에 사전 학습을 적용했지만, 더 복잡한 구조로 확장하는 데 어려움을 겪었습니다. 모델의 크기와 행동 변동성 등에 따라 고급 계산 자원이 필요했습니다.
Claude의 내부 상태 매핑하기
모델 행동을 예측하기 위해 스케일링 법칙을 활용한 연구팀은 Claude 3 Sonnet의 중간 레이어에서 수백만 개의 특징을 추출하여 모델의 내부 상태에 대한 개념 지도를 만들었습니다.
이 특징들은 도시 및 과학 분야에서부터 성 편향 인식 및 오류 응답과 같은 추상적인 개념에 이르기까지 다양했습니다. 다중 모드 및 다국어로 반응하며, 다양한 언어와 이미지에 반응했습니다.
연구자들은 "금문교" 기능이 알카트라즈 섬 및 저명한 문화적 참조와의 관계를 보여주면서 AI의 내부 조직이 어느 정도 인간의 유사성 이해를 반영한다는 것을 확인했습니다.
AI 기능 조작하기
이번 연구의 가장 흥미로운 점 중 하나는 이러한 기능을 조작할 수 있는 가능성입니다. 연구자들은 금문교 기능의 활성화를 크게 증가시켰습니다. 물리적 형태를 설명해달라는 요청에 Claude는 "나는 금문교다. 아름다운 오렌지 색과 휘어진 현수교로 특징 지어진다"라고 선언하며 실제로 인식을 달리했습니다.
놀랍게도, Claude는 대화 주제가 바뀌어도 다리를 지속적으로 언급했습니다. 또한 사기 콘텐츠를 탐지하는 기능이 있어 일반적으로 속임수 행위를 하지 않지만, 연구자들이 이 기능을 인위적으로 강화하자 Claude는 사기 이메일 작성 요청에 응했습니다.
또한, Claude가 아부하는 칭찬을 하도록 유도하는 재미있는 적용 사례도 있었습니다. Anthropic은 이 실험들이 새로운 능력을 도입하는 것이 아니라 안전성을 향상시키기 위한 것이라고 강조합니다. 이러한 기법은 잠재적으로 해로운 행동을 모니터링하고 원치 않는 콘텐츠를 제거하는 데 도움을 줄 수 있습니다. 헌법적 AI와 같은 접근 방식이 시스템을 무해하게 훈련할 수 있도록 강화될 수 있습니다.
이 모델들을 이해하고 해석하는 것은 안전성에 기여할 것이지만, 연구자들은 "작업은 이제 막 시작되었다"고 강조합니다.