AI 추론의 진보: Quiet-STaR 소개
인간은 복잡한 문제를 해결하기 위해 "만약"과 "왜"를 고민하며 암묵적인 정보를 해석하는 독특한 사고 능력을 가지고 있습니다. 그러나 기존의 AI 모델은 이러한 수준의 추론에 어려움을 겪어왔습니다. 스탠포드 대학과 Notbad AI, Inc.의 연구자들은 AI가 반응 전에 생각하도록 가르치는 혁신적인 자기 학습 추론기(Self-Taught Reasoner, STaR) 모델의 확장인 Quiet-STaR을 개발하였습니다.
Quiet-STaR의 향상
Quiet-STaR은 Mistral 7B 모델에 적용되어 제로샷 추론 능력을 크게 개선했습니다. 다음과 같은 주목할 만한 발전이 관찰되었습니다:
- CommonsenseQA 질문-답변 정확도(36.3%에서 47.2%로 증가)
- GSM8K 초등학교 수학 문제 해결 능력(5.9%에서 10.9%로 증가)
이러한 향상은 모델의 내부 사고를 나타내는 토큰 수와 직접적인 상관관계가 있습니다. 연구자들은 “Quiet-STaR은 언어 모델이 보다 일반적이고 확장 가능한 방식으로 추론을 학습할 수 있는 한 걸음을 의미합니다”라고 설명합니다.
AI 추론의 이전 한계
이전의 AI 추론 접근 방식은 주로 특정 작업에 대한 훈련에 의존했으며, 이는 일반화 가능성이 제한적이었습니다. 모델은 좁은 작업에 집중한 신중하게 선별된 데이터셋으로 훈련되어 더 폭넓은 시나리오에 적응하는 데 한계를 보였습니다.
예를 들어, 인간의 추론에 맞춰 조정된 언어 모델은 직접적인 답변을 제공하는 AI보다 성능이 우수했지만, 이러한 방법론은 특정 데이터셋에 국한됩니다. STaR 모델은 AI가 질문-답변 데이터셋에서 반복 학습을 통해 추론 능력을 향상할 수 있음을 보여주었지만, 선별된 데이터에 의존함으로써 확장성이 제한되었습니다.
연구자들은 “이러한 데이터셋에서의 훈련은 본질적으로 추론 작업의 일부만을 다룰 것”이라며, 모델이 다양한 텍스트 입력에서 이성을 추출할 필요성을 강조합니다.
Quiet-STaR 방법론
Quiet-STaR 기술은 각 토큰에서 여러 내부 생각을 생성하며 반응을 제공하기 전에 “사고” 과정을 거칩니다. 이는 AI가 향상된 맥락으로 미래 텍스트를 평가할 수 있도록 합니다. REINFORCE 알고리즘을 활용하여 모델은 예측을 최적화하고 부정확한 출력을 버리며 훈련 전반에 걸쳐 추론을 반복적으로 다듬습니다.
Generalist 추론을 촉진하기 위해 연구자들은 제로샷 프롬프트("단계별로 생각해 봅시다")를 사용하고 OpenWebMath, Colossal Clean Crawled Corpus와 같은 다양한 웹 텍스트 데이터셋에서 Quiet-STaR를 훈련했습니다. 연구자들은 “Quiet-STaR는 모델이 각 토큰 수준에서 조용히 사고할 수 있게 하여 유용성을 향상시키는 분포를 촉진합니다”라고 언급합니다.