딥마인드의 GenRM, 출력의 자기 검증을 통해 LLM 정확도 향상

대형 언어 모델(LLMs)은 복잡한 추론 작업에서 사실 및 논리 오류를 자주 겪습니다. 이 문제를 완화하기 위해 연구자들은 LLMs가 생성한 출력 중 가장 정확한 응답을 평가하고 선택하는 검증기 또는 보상 모델을 구현합니다. 최근 Google DeepMind, 토론토 대학, Mila, UCLA의 연구자들이 발표한 논문에서는 LLM의 생성 능력을 활용하여 검증 프로세스를 향상시키는 혁신적인 접근법인 GenRM을 소개합니다. GenRM은 전통적인 검증 방법이 부족한 LLM 기반 응용 프로그램에 유용한 도구입니다.

전통적인 검증기와 보상 모델의 한계

LLM의 정확도를 높이는 일반적인 방법은 여러 후보 답변을 생성하고 이를 평가할 별도의 구성 요소를 사용하는 것입니다. 이는 신뢰할 수 있는 검증기나 보상 모델이 필요합니다. 일반적으로 LLM 기반 검증기는 후보 솔루션을 정확한지 여부에 따라 점수를 매기는 판별적 보상 모델(RM)로 훈련됩니다. 그러나 이러한 RM은 LLM이 응답을 생성하고 처리하는 본래의 강점을 충분히 활용하지 못합니다. "전통적인 보상 모델(RM) 및 검증기는 LLM을 미세 조정하여 훈련되지만, LLM이 본질적으로 설계된 텍스트 생성 기능을 활용하지 못합니다."라고 DeepMind의 선임 연구원인 Rishabh Agarwal이 설명합니다.

LLM을 판별자로 활용하는 또 다른 기법은 고급 프롬프트 기법을 사용해 응답을 평가하는 것입니다. 이 접근 방식은 유연성을 제공하지만, 훈련 중 보상 모델이 얻은 능력이 부족합니다.

생성적 보상 모델

DeepMind의 GenRM은 다음 토큰 예측을 통해 검증기를 훈련하여 LLM의 생성적 강점을 활용하는 대안을 제시합니다. "다음 토큰 예측을 통해 RMs를 훈련하면 생성적 LLM의 다양한 이점을 활용할 수 있습니다."라고 Agarwal은 말합니다. "우리는 동일한 모델이 검증과 생성 솔루션을 수행하며, 정확성을 높이기 위해 검증 전에 사고 과정을 활용하는 것을 입증했습니다." GenRM에서 검증 결정은 토큰으로 표현됩니다. 예를 들어, 솔루션의 점수를 생성하기 위해 검증기는 "이 답이 맞습니까?"라는 프롬프트를 사용하고, 문맥에 따라 텍스트 토큰(예: "예" 또는 "아니오")의 확률로 점수를 나타냅니다.

검증이 복잡한 추론을 수반하는 경우가 많으므로, 생성적 검증기는 사고 과정(Chain-of-Thought, CoT)과 같은 고급 프롬프트 기법의 혜택을 크게 누릴 수 있습니다. "특히, 우리는 솔루션의 정확성을 결정하기 전에 중간 추론 단계나 비판(Cot)을 생성하여 직접 검증기가 간과할 수 있는 미세한 오류를 발견할 수 있습니다."라고 연구자들은 말합니다.

GenRM 모델을 훈련하기 위한 CoT 논리는 인간 입력 또는 다른 LLM에서 파생될 수 있습니다. 추론 단계에서 GenRM은 먼저 CoT 논리를 생성한 후 "예" 토큰의 확률을 사용해 정확도 점수를 결정합니다. CoT 검증기의 정확성을 더욱 높이기 위해 연구자들은 다수결을 활용했습니다. 여러 CoT 체인을 샘플링하고 모든 샘플에서 평균 "예" 점수를 계산하여 테스트 시간 계산을 최적화했습니다.

"GenRM은 LLM을 판별자로 활용하는 전통적인 검증과 결합한 개념으로, 도메인 특정 검증 데이터에 대해 훈련된 LLM을 포함합니다."라고 Agarwal은 설명합니다. "따라서 GenRM은 일반적인 프롬프트 LLM으로는 부족한 분야에 적합합니다."

GenRM의 실제 적용

GenRM의 효율성을 평가하기 위해 DeepMind 연구자들은 마지막 문자 연결, 단어 정렬, 단어-수학 문제 등 다양한 추론 작업에서 테스트했습니다. 그들은 GenRM을 판별적 보상 모델, LLM을 판별자로 활용한 방법, 그리고 다수의 답변을 생성한 후 가장 자주 나타나는 것을 선택하는 '자기 일관성' 등의 표준 방법과 비교했습니다. 모든 작업에서 CoT를 사용하는 GenRM은 특별히 훈련된 판별적 보상 모델을 포함해 여러 대안 방법보다 몇 퍼센트 포인트 더 높은 성과를 기록했습니다. GSM8K 수학 추론 벤치마크에서 GenRM 용으로 훈련된 Gemma-9B 모델은 92.8%의 문제 해결율을 달성하여 GPT-4 및 Gemini 1.5 Pro의 성능을 초과했습니다.

"생성 솔루션과 검증을 다음 토큰 예측 목표로 통합함으로써, GenRM은 모든 작업에서 검증 성능을 지속적으로 향상시킵니다."라고 연구자들은 언급합니다. "이 개선은 직접적 및 CoT 기반 생성 검증기 모두에서 명확하며, 일반적으로 검증기가 올바른 솔루션을 모방하도록 학습하는 것이 유익합니다." 실험 결과 GenRM은 데이터 셋 크기와 모델 용량이 증가함에 따라 유리하게 확장되는 것으로 나타났습니다. 또한 CoT와 함께 사용하는 GenRM은 더 많은 응답을 샘플링할 때 계속해서 개선되는 모습을 보여, LLM 응용 프로그램 개발자들에게 정확성과 계산 비용을 조절할 수 있는 유연성을 제공합니다.

"전통적인 검증기와 비교할 때, GenRM은 동일한 데이터로도_generation과 검증을 공동으로 훈련하여 성과를 보이므로 우수할 수 있으며, GenRM 훈련은 표준 미세 조정만으로 가능합니다."라고 Agarwal은 말합니다. "그러나 GenRM의 능력을 최대한 활용하기 위해선 보상 라벨을 명확히 하는 비판이나 검증 논리를 요구합니다. 고품질 데이터를 위해 인간 입력이 필요할 수 있지만, 더 확장 가능한 솔루션은 합성 LLM 생성 논리를 포함할 것입니다."

GenRM의 향후 방향은 개방형 생성 작업을 위한 합성 검증 논리의 확장, GenRM을 강화 학습 파이프라인에 통합, 그리고 고급 LLM 능력(예: 적은 샘플 학습, 검색 증강 생성, ReAct, 코드 생성 및 실행 활용)을 통해 검증을 더욱 향상시키는 것을 포함할 수 있습니다.

Most people like

Find AI tools in YBX