대규모 언어 모델의 인간 평가: 혁신의 필요성
인간 평가는 대규모 언어 모델(LLM)의 품질과 정확성을 평가하는 데 오랫동안 기준으로 여겨져 왔으며, 특히 창의적인 글쓰기와 코딩 같은 개방형 과제에서 중요한 역할을 하고 있습니다. 그러나 이 방법은 종종 느리고 비용이 많이 들며 전문적인 지식을 필요로 합니다.
자기 학습 평가자 소개
메타 FAIR의 연구자들은 인간 주석 없이 합성 데이터를 활용해 LLM 평가자를 훈련시키는 혁신적인 접근 방식인 자기 학습 평가자(Self-Taught Evaluator)를 개발했습니다. 이 방법에는 몇 가지 한계가 있지만, LLM 평가의 효율성과 확장성을 향상시킬 것으로 기대되며, 특히 맞춤형 모델을 구축하려는 기업에 유용합니다.
LLM 평가의 도전 과제
LLM은 종종 다른 모델을 인간의 선호와 조정하거나 훈련 중 성능을 향상시키기 위해 평가 역할을 수행합니다. 이는 창의적이고 복잡한 지침 시나리오에서 여러 유효한 결과가 존재하는 작업에서 매우 중요합니다. 기존의 LLM 평가자는 방대한 인간 주석 데이터에 의존해야 했으며, 이는 비용이 많이 들고 시간이 소모되는 과정으로 LLM 기반 애플리케이션의 신속한 개발을 저해합니다.
자기 학습 평가자의 작동 원리
자기 학습 평가자는 인간 레이블 데이터의 필요성을 제거하여 이 문제를 해결합니다. 이 모델은 입력과 두 가지 가능한 답변, 그리고 어떤 응답이 우수한지를 판단하기 위한 평가 프롬프트를 제공받아 판별하는 LLM-as-a-Judge 개념에 기반하여 작동합니다. 과정은 시드 LLM과 대량의 레이블이 없는 인간 작성 지침 모음으로 시작되며, 여기서 평가자는 무작위로 선택한 지침 세트를 기반으로 두 가지 반응의 쌍을 생성합니다: 하나는 "선택된" 높은 품질 답변이고, 다른 하나는 "거부된" 답변입니다.
그 후 평가자는 반복적으로 훈련됩니다. 각 반복에서 여러 LLM-as-a-Judge reasoning trace와 판단을 샘플링하고, 올바른 추론 체인은 입력, 정답 및 오답, 그리고 판단 체인을 포함한 훈련 세트를 구성합니다. 이후 모델은 이 새로운 데이터셋을 기반으로 세부 조정되어 다음 반복을 위한 업데이트된 모델로 발전합니다.
자기 학습 평가자 테스트
연구자들은 Llama 3-70B-Instruct 모델을 사용하여 자기 학습 평가자를 시작하고, WildChat 데이터셋에서 20,000개 이상의 추론 카테고리 예제를 선택했습니다. 그들은 코딩 및 단어 수학 문제를 포함한 다른 데이터셋과 작업도 탐색하여 자기 학습 파이프라인이 전체 답변과 훈련 세트를 자율적으로 생성하도록 했습니다. 실험 결과 자기 학습 평가자가 기본 모델의 RewardBench 벤치마크 정확도를 75.4%에서 88.7%로 5회 반복하여 향상시킨 것으로 나타났습니다. 이 정확도는 인간 주석 데이터로 훈련된 모델과 경쟁하거나 어떤 경우에는 초과 성능을 보입니다. MT-Bench 벤치마크에서도 유사한 개선이 관찰되었습니다.
기업을 위한 시사점
이 연구는 LLM을 자동화된 자기 개선 루프에 활용하려는 성장 추세와 일치하며, 고성능 모델을 만드는 데 필요한 수작업을 줄이고 더 확장 가능한 AI 애플리케이션 개발을 촉진합니다. 자기 학습 평가자는 대량의 레이블 없는 기업 데이터를 보유한 기업이 광범위한 수작업 주석 없이 모델을 조정하는 데 특히 유용합니다.
그러나 몇 가지 한계를 인지하는 것이 중요합니다. 이 접근 방식은 человеk의 선호에 따라 지침 조정된 초기 시드 모델에 의존합니다. 연구자들은 초기 훈련 데이터셋에 Mixtral 8x22B 혼합 전문가 모델을 사용하여 특정 데이터와 작업에 따라 관련성 높은 시드 및 기본 모델의 신중한 선택이 필요함을 강조했습니다. 표준화된 벤치마크는 LLM의 능력과 한계를 완전히 포착하지 못할 수 있으며, LLM에만 의존한 완전 자동화 루프는 벤치마크를 최적화하는 반면 실제 애플리케이션에서는 성과가 저조할 위험이 있습니다. 따라서 기업은 모델이 원하는 성능 기준을 충족하는지 확인하기 위해 다양한 훈련 단계에서 수동 테스트를 수행해야 합니다.