안트로픽(Anthropic)은 최근 Claude AI 모델 가족의 시스템 프롬프트를 공개해 생성 AI 산업에서 투명성의 새로운 기준을 세웠습니다. 업계 전문가들은 이 조치를 AI 시스템의 내부 작동을 이해하는 데 큰 기여를 하는 중요한 발전으로 보고 있습니다.
시스템 프롬프트는 대규모 언어 모델(LLM)이 사용자와 상호작용하는 동안 따라야 할 일반 지침을 제시하는 운영 지침입니다. 또한 모델 훈련에 사용된 정보의 지식 기준일을 나타냅니다. 많은 LLM이 시스템 프롬프트를 사용하지만, 모든 AI 기업이 이를 공개하지는 않으며, 이로 인해 AI "탈옥" 시도자들이 이 정보를 uncover하려는 경향이 커지고 있습니다. 안트로픽은 Claude 3.5 Sonnet, Claude 3 Haiku, 그리고 Claude 3 Opus 모델의 운영 지침을 웹사이트의 릴리스 노트 섹션에 게시함으로써 이러한 노력을 앞서 나가고 있습니다.
또한, 안트로픽의 개발자 관계 책임자인 알렉스 알버트(Alex Albert)는 X(구 트위터)에서 Claude의 시스템 프롬프트 업데이트에 대한 정보를 국민에게 제공하겠다고 약속했습니다. 그는 “우리는 Claude.ai와 모바일 앱에서 기본 시스템 프롬프트에 대한 변경 사항을 기록할 것입니다.”라고 밝혔습니다.
안트로픽의 시스템 프롬프트에서 얻은 통찰력
Claude 3.5 Sonnet, Claude 3 Haiku, 및 Claude 3 Opus의 시스템 프롬프트는 각 모델의 기능, 지식 기준일과 독특한 성격에 대한 귀중한 정보를 제공합니다.
- Claude 3.5 Sonnet은 가장 진보된 모델로, 2024년 4월 기준으로 업데이트된 지식 기반을 갖추고 있습니다. 복잡한 질문에 대해 자세한 답변을 제공하며, 간단한 질문에는 간결한 응답을 제공합니다. 이 모델은 논란이 되는 주제에 대해 조심스럽게 접근하며, 정보를 민감하다고 레이블을 붙이거나 중립성을 주장하지 않습니다. 주목할 점은 이상한 문구를 지양하며 이미지 입력에서 얼굴 인식을 인정하지 않는다는 것입니다.
- Claude 3 Opus는 2023년 8월 기준으로 업데이트되어 복잡한 작업 및 글쓰기에서 뛰어난 성능을 보입니다. Sonnet과 유사하게, 기본적인 질문에 대해 간결한 답변을 제공하며 복잡한 질문에 대해서는 철저한 응답을 제공합니다. Opus는 논란이 있는 주제를 다양한 관점에서 다루며, 고정관념을 피하고 균형 잡힌 시각을 보장합니다. 그러나 일부 세부적인 행동 지침은 Sonnet에 비해 부족합니다.
- Claude 3 Haiku는 Claude 모델 중 가장 빠른 모델로, 2023년 8월 기준으로 업데이트되었습니다. 간단한 질문에 대해 신속하고 간결한 답변을 제공하고, 복잡한 문제에는 철저한 답변을 우선시합니다. 프롬프트 구조는 간단하며, Sonnet에서 발견되는 고급 행동 뉘앙스가 없이 속도와 효율성에 중점을 둡니다.
AI 투명성의 중요성
생성 AI 시스템에 대한 주요 비판 중 하나는 모델 결정의 근거를 불분명하게 만드는 "블랙 박스" 현상입니다. 이 문제는 모델이 예측을 생성하는 과정에 대한 이해를 향상시키기 위한 AI 설명 가능성 연구를 촉진했습니다. 시스템 프롬프트를 공개적으로 접근 가능하게 만들어 안트로픽은 이 투명성 격차를 해결하는 데 한 걸음을 내디뎠으며, 사용자들이 모델 행동을 지배하는 규칙을 이해할 수 있도록 하고 있습니다.
안트로픽의 이번 발표는 AI 개발 커뮤니티에서 긍정적인 반응을 얻으며 AI 기업 간 투명성 향상을 위한 방향으로 주목받고 있습니다.
개방성의 한계
안트로픽은 Claude 모델의 시스템 프롬프트를 공개했지만, 전체 모델을 오픈 소스로 제공하지는 않았습니다. 실제 소스 코드, 훈련 데이터 세트 및 모델 가중치는 여전히 안트로픽의 소유로 남아 있습니다. 그러나 이번 이니셔티브는 다른 AI 기업들이 투명성을 향상시킬 수 있는 경로를 보여주며, 사용자들에게 AI 챗봇이 작동하는 방식을 명확히 하는 데 도움이 됩니다.