최근 구글의 DeepMind가 발표한 연구에 따르면, 인공지능 시스템이 대형 언어 모델이 생성한 정보의 정확성을 평가하는 데 있어 인간 사실 확인자보다 더 우수한 성능을 발휘할 수 있다고 합니다. '대형 언어 모델의 장기적 사실성'이라는 제목의 논문에서 소개된 Search-Augmented Factuality Evaluator (SAFE)는 대형 언어 모델을 활용하여 생성된 텍스트를 개별 사실로 분해하고, Google 검색 결과를 통해 각 주장에 대한 정확성을 평가하는 혁신적인 방법입니다.
SAFE는 장문 응답을 구체적인 사실로 나누고, 다단계 추론을 통해 각 사실을 평가하는 과정을 포함합니다. 이 과정에는 정보가 관련 출처로 입증되는지 확인하기 위한 Google 검색 질의도 포함됩니다.
'초인적' 성능에 대한 논란
연구자들은 약 16,000개의 사실 데이터셋을 사용하여 SAFE와 인간 주석자를 비교했습니다. 그 결과, SAFE의 평가가 인간 평가와 72% 일치하는 것으로 나타났습니다. 100개의 불일치 샘플에서 SAFE의 판별은 76%의 정확도를 보였습니다. 논문에서는 "LLM 에이전트가 초인적 평가 성능을 달성할 수 있다"고 주장하지만, 일부 전문가들은 이 '초인적'의 정의에 이의를 제기하고 있습니다. 저명한 AI 연구자인 게리 마커스는 트위터에서 "초인적"이라는 용어가 "정당한 인간 사실 확인자보다 잘 평가하는 것"을 의미할 수 있다고 언급했습니다. 그는 1985년 체스 소프트웨어가 초인적 능력을 대표한다고 제안하는 것과 유사하다고 비유했습니다.
마커스는 SAFE가 진정한 인간 사실 확인자와 비교하여 '초인적' 성능 주장을 검증해야 한다고 주장합니다. 인간 평가자의 자격과 방법론 같은 세부 사항은 이러한 결과를 정확히 해석하기 위해 필수적입니다.
비용 절감 및 모델 벤치마킹
SAFE의 주요 장점 중 하나는 비용 효율성입니다. 연구자들은 인공지능 시스템을 사용하는 것이 인간 사실 확인자를 고용하는 것보다 약 20배 저렴하다는 것을 발견했습니다. 대형 언어 모델이 생성하는 정보의 양이 증가하는 상황에서, 주장을 검증할 수 있는 저렴하고 확장 가능한 솔루션의 필요성이 커지고 있습니다.
DeepMind 팀은 SAFE를 사용하여 Gemini, GPT, Claude 및 PaLM-2라는 네 가지 패밀리의 13개 주요 언어 모델의 사실 정확성을 평가했습니다. LongFact라는 새로운 벤치마킹 도구를 통해 조사한 결과, 더 큰 모델이 일반적으로 사실 오류를 덜 발생시킨다는 것을 발견했습니다. 하지만, 가장 우수한 모델조차도 상당수의 부정확성을 생성하고 있어, 잘못된 정보를 전달할 수 있는 언어 모델에 대한 주의가 필요하다는 점을 강조했습니다. SAFE와 같은 도구는 이러한 위험을 완화하는 데 중요한 역할을 할 수 있습니다.
투명성 및 인간 기준의 필요성
SAFE의 코드와 LongFact 데이터셋은 GitHub에서 사용 가능하여 추가적인 검토와 개발을 허용하고 있지만, 연구에 사용된 인간 기준에 대한 투명성이 더 요구됩니다. 크라우드워커의 자격 및 과정에 대한 이해는 SAFE의 성과를 맥락화하는 데 중요합니다.
기술 회사들이 다양한 응용 프로그램을 위한 보다 정교한 언어 모델을 개발하기 위해 노력하는 가운데, 이러한 모델의 출력을 자동으로 사실 확인할 수 있는 능력은 중요해질 수 있습니다. SAFE와 같은 혁신은 AI 생성 정보에서 신뢰와 책임을 구축하는 주요 진전을 나타냅니다.
그러나 이러한 영향력 있는 기술의 발전은 단일 조직의 의견을 넘어 다양한 이해 관계자의 의견을 포함하여 투명하게 이루어져야 합니다. 진정한 전문가와의 철저하고 투명한 벤치마킹이 진정한 발전을 측정하는 핵심이 될 것입니다. 그래야지만 자동 사실 확인이 허위 정보와 싸우는 데 얼마나 효과적인지를 진정으로 이해할 수 있습니다.