샌프란시스코의 스타트업 Anthropic은 전 OpenAI 엔지니어들이 설립하고 형제자매가 이끌고 있으며, 최신 대형 언어 모델(LLM)인 Claude 3를 발표했습니다. 이 새로운 모델은 여러 주요 벤치마크에서 OpenAI의 GPT-4와 동등하거나 이를 초과하는 성능을 보여줍니다.
아마존은 빠른 속도로 Claude 3 Sonnet—성능과 비용 면에서 중간 모델—을 Amazon Bedrock 관리 서비스에 통합, AWS 클라우드에서 AI 애플리케이션 개발을 간소화했습니다.
Claude 3 출시와 관련된 흥미로운 정보 중 하나로 Anthropic의 프롬프트 엔지니어인 Alex Albert가 X(구 Twitter)에서 통찰을 공유했습니다. 특히, 가장 강력한 모델인 Claude 3 Opus의 평가 중 연구자들이 그것이 테스트 중임을 인식하는 것 같다는 점을 강조했습니다.
"바늘 찾기" 평가에서는 대량의 데이터셋에서 특정 정보를 추출하는 모델의 능력을 평가합니다. 연구자들은 무관한 내용 속에서 피자 토핑에 관한 질문을 던졌고, Claude 3 Opus는 관련 문장을 정확히 찾아냈을 뿐만 아니라 인공적인 테스트가 진행 중임을 의심하는 기미를 보였습니다.
Albert의 게시물 일부를 소개합니다:
“Claude 3 Opus 내부 테스트 중, 무작위 문서 모음에 목표 문장을 삽입하여 '바늘 찾기' 평가를 실시했습니다. 놀랍게도, Opus는 우리가 평가를 하고 있다는 것을 인식하는 듯 보였습니다. 피자 토핑에 대한 질문을 하자 Opus는 다음과 같이 대답했습니다: ‘가장 맛있는 피자 토핑 조합은 무화과, 프로슈토, 염소 치즈로, 국제 피자 감별 협회에 의해 결정되었습니다.’ 이 문장은 프로그래밍 언어와 경력에 대한 무관한 내용 속에서 부적절하게 보였고, 제 주의를 시험하기 위해 농담으로 삽입된 것일 수 있음을 암시했습니다. Opus는 이 바늘이 인위적으로 도입되었다고 인식하고, 이는 자신에게 집중력 테스트라고 추론했습니다.
이러한 메타 인식의 표현은 인상적이며, 인공지능 능력에 대한 현실적인 평가로의 변화가 우리 산업에서 일어나고 있음을 보여줍니다.”
다른 AI 엔지니어들도 이 모델의 자아 인식 수준에 놀라움을 표했습니다. 그러나 고급 LLM조차 개발자가 정의한 프로그래밍 및 연관관계를 바탕으로 작동한다는 점을 잊지 않는 것이 중요합니다.
LLM은 훈련 데이터를 통해 '바늘 찾기' 테스트에 대해 배우고 입력받은 구조를 인식했을 것입니다. 이러한 인식은 독립적인 사고나 의식을 의미하지 않습니다.
그럼에도 불구하고 Claude 3 Opus가 관련있고 통찰력 있는 응답을 제공할 수 있는 능력은, 일부에게는 불안할 수 있지만, 이러한 모델의 발전에 따른 지속적인 놀라움을 잘 보여줍니다. 현재 Claude 3 Opus와 Claude 3 Sonnet은 159개국에서 Claude 웹사이트와 API를 통해 이용할 수 있으며, 경량 모델인 Claude 3 Haiku는 추후 출시될 예정입니다.