딥마인드의 SCoRe는 대형 언어 모델(LLMs)이 내부 지식을 활용하여 스스로 오류를 수정하는 방법을 보여줍니다.

대형 언어 모델(LLMs)은 복잡한 작업을 처리하는 데 점점 더 능숙해지고 있지만, 첫 번째 시도에서 정확한 답변을 제공하는 데 어려움을 겪습니다. 이로 인해 "자기 수정" 능력을 향상시키려는 관심이 커지고 있습니다. 그러나 기존의 자기 수정 방법은 제한적이며 실제 요구를 충족하지 못하는 경우가 많습니다.

구글 딥마인드의 연구자들이 발표한 혁신적인 논문에서는 자기 생성 데이터를 활용하여 LLM의 자기 수정 능력을 획기적으로 높이는 '강화 학습을 통한 자기 수정(SCoRe)'이라는 새로운 접근법을 소개합니다. SCoRe는 LLM의 신뢰성과 견고성을 향상시키고, 이들의 추론 및 문제 해결 능력을 개선하는 새로운 길을 열 것입니다.

"자기 수정은 인간의 사고를 크게 향상시킵니다,"라고 구글 딥마인드의 연구원인 아비랄 쿠마르는 말합니다. "인간은 여러 아이디어를 고민하고 오류를 수정하는 데 시간을 할애하며 결국 올바른 해결책을 찾습니다. 우리는 LLM도 같은 방식으로 진행되길 원합니다."

이상적인 LLM은 자신이 생성한 응답을 평가하고 수정하여 올바른 답변에 도달할 수 있어야 합니다. 이는 LLM이 문제를 해결하는 데 필요한 지식을 갖고 있지만, 초기 응답에서 이를 효과적으로 활용하는 데 어려움을 겪는 경우가 많기 때문에 매우 중요합니다.

"기본적인 기계 학습 관점에서 LLM이 어려운 문제를 한 번에 해결하기를 기대하지 않습니다,"라고 쿠마르는 설명합니다. "따라서 우리는 LLM이 더 많은 컴퓨팅 노력을 기울여 사고하고 자기 수정하여 어려운 문제를 해결하길 원합니다."

이전에 LLM에서 자기 수정을 가능하게 하려는 시도는 보통 프롬프트 엔지니어링이나 모델 미세 조정에 의존하였으며, 종종 외부 피드백이나 '오라클'의 가이드를 요구합니다. 이러한 기존 기법은 모델의 본래 자기 수정 능력을 간과하는 경향이 있습니다. 예를 들어, 감독된 미세 조정(SFT) 방법은 인간 주석자나 강력한 모델의 피드백에 크게 의존하여 실제 시나리오에서의 적용 가능성을 제한합니다. 또한 SFT 방법은 종종 인증을 위해 다수의 모델을 필요로 하여 배포를 복잡하게 만듭니다.

딥마인드의 연구에 따르면, SFT가 모델의 초기 출력을 향상시킬 수는 있지만, 모델이 여러 단계에 걸쳐 답변을 수정해야 할 때는 부족하다는 것입니다. "훈련이 끝날 무렵, 모델은 기본 모델의 오류를 수정하는 방법을 배울 수 있지만, 여전히 자신의 오류를 감지하는 능력이 부족할 수 있습니다,"라고 쿠마르는 지적합니다.

SFT의 또 다른 단점은 모델이 첫 번째 시도에서 최상의 답변을 제공하도록 학습하면서, 잘못된 경우에도 이를 조정하지 않는다는 점입니다. "SFT로 훈련된 모델은 자기 수정 과정보다 '직접' 전략을 우선시하는 경향이 있습니다,"라고 덧붙였습니다.

강화 학습을 통한 발전

이러한 한계를 다루기 위해 딥마인드 연구자들은 강화 학습(RL)로 방향을 전환했습니다. "현재 LLM은 효과적으로 자기 수정을 수행하지 않습니다,"라고 쿠마르는 말합니다. "그들은 과거의 실수를 반영하도록 훈련받지 않고, 질문에 대한 최상의 응답을 생성하는 데 초점을 맞춥니다. 그래서 우리는 자기 수정 방법을 개발했습니다."

SCoRe는 단일 모델이 응답을 생성하고 오류를 독립적으로 수정하는 방법을 학습하게 하여 외부 피드백을 요구하지 않습니다. 이는 오직 자기 생성 데이터로 훈련되어 외부 정보에 대한 의존성을 제거합니다.

이전의 RL 접근법은 주로 단일 턴 상호작용에 의존하여 모델이 자기 수정 명령을 무시하고 기억에서 최선의 답변을 제공하는 행동 붕괴를 초래했습니다. "순진한 RL 방법은 모델이 자기 수정 프롬프트를 무시하고 제로샷 응답 생성에만 집중하게 만들었습니다,"라고 쿠마르는 언급합니다.

행동 붕괴를 방지하기 위해 SCoRe는 정규화 기법에 의해 강화된 두 단계 훈련 과정을 사용합니다. 첫 번째 단계에서는 수정 성능을 최적화하면서 모델의 초기 응답이 기본 모델의 출력과 일치하도록 보장합니다. 두 번째 단계에서는 다단계 RL을 활용하여 초기 및 추가 시도의 성능을 향상시키며, 모델이 여러 반복을 통해 답변을 개선하도록 유도하는 보상 시스템을 포함합니다.

"이 두 가지 접근법은 모델이 단순히 최상의 첫 응답을 내고 최소한으로 수정하는 수준에 그치지 않도록 보장합니다,"라고 연구자들은 설명합니다. "전반적으로 SCoRe는 기본 모델의 지식을 효과적으로 활용하여 긍정적인 자기 수정을 달성합니다."

SCoRe의 실제 적용

딥마인드 연구자들은 SCoRe를 기존 자기 수정 방법과 비교하여 자기 생성 데이터를 이용해 수학 및 코딩 작업에서 MATH, MBPP, HumanEval과 같은 벤치마크를 강조했습니다.

SCoRe는 제미니 1.0 프로 및 1.5 플래시 모델의 자기 수정 능력을 상당히 개선하며, MATH 벤치마크에서 15.6%의 절대 성과 향상과 HumanEval에서 9.1%의 향상을 달성하여 기존 자기 수정 기술을 초월했습니다.

가장 두드러진 개선점은 모델이 첫 번째 시도에서 두 번째 시도까지의 실수를 정교화하는 능력이었으며, 정답을 수정하는 데 있어 잘못된 변경을 최소화하는 데 성공했습니다. SCoRe는 추론 시간 스케일링 전략과 결합했을 때 더욱 효율적이며, 여러 수정 라운드에 걸쳐 동일한 추론 예산을 배분하여 성능을 더욱 향상시켰습니다.

이 연구는 주로 코딩 및 추론 작업에 초점을 맞추고 있지만, 팀은 SCoRe가 더 넓은 적용 가능성을 가지고 있다고 믿습니다. "안전하지 않은 출력물을 인식하고 사용자가 볼 수 있기 전에 독립적으로 개선할 수 있는 모델을 상상해 보십시오,"라고 쿠마르는 제안합니다.

이 연구는 LLM에게 입력을 출력으로 매핑하는 것뿐 아니라 추론하고 자기 수정을 수행하는 방법을 가르치는 것이 중요함을 강조하며, 더 능력 있는 신뢰할 수 있는 AI 시스템으로 나아가는 길을 열고 있습니다.

Most people like

Find AI tools in YBX