OpenAI의 GPT-4는 최근 Vectara의 평가에 따르면 문서 요약 시 왜곡 현상을 최소화하는 데 가장 뛰어난 대형 언어 모델(LLM)로 떠올랐습니다. 이 회사는 Hallucination Evaluation Model을 사용하여 주요 LLM을 평가한 종합적인 리더보드를 GitHub에 출시했습니다. 이 모델은 문서 요약 중 AI가 부정확하거나 허구의 정보를 생성하는 빈도인 왜곡 frequency를 정량화합니다.
GPT-4와 변형 모델인 GPT-4 Turbo는 각각 97%의 높은 정확도와 3%의 최소 왜곡 비율을 기록하며 뛰어난 성능을 보였습니다. 그 뒤를 이어 GPT-3.5 Turbo가 96.5%의 인상적인 정확도와 3.5%의 약간 높은 왜곡 비율로 뒤따랐습니다.
OpenAI 외의 모델 중에서는 Meta의 700억 매개변수를 가진 Llama 2가 두드러진 성과를 기록했습니다. 이 모델은 94.9%의 정확도와 단 5.1%의 왜곡 비율을 달성했습니다. 반면 Google의 모델들은 리더보드에서 저조한 성적을 보였습니다. Google Palm 2는 87.9%의 정확도와 12.1%의 왜곡 비율을 기록했고, 채팅 최적화 버전은 72.8%의 정확도와 가장 높은 27.2%의 왜곡 비율로 큰 폭으로 하락했습니다.
특히 Google Palm 2 Chat은 요약당 평균 221단어로 가장 많은 단어 수를 생성한 반면, GPT-4는 평균 81단어를 생성했습니다.
평가 방법론
Vectara의 평가는 LLM 출력에서 왜곡을 식별하기 위해 오픈 소스 데이터셋을 활용했습니다. 이 회사는 각 모델을 1,000개의 짧은 문서에 대해 테스트하며, 해당 문서에 제공된 내용만을 기반으로 요약을 요청했습니다. 그러나 831개의 문서만이 모든 모델에 의해 요약되었고, 나머지는 콘텐츠 제한으로 인해 필터링되었습니다. 모든 모델에 공유된 문서에 대해 Vectara는 전체 정확도와 왜곡 비율을 계산했습니다.
테스트한 콘텐츠는 불법적이거나 '근무 불가' 자료가 없었지만, 특정 단어의 존재로 인해 일부 모델에서 콘텐츠 제한이 발생했습니다.
왜곡 문제 해결
왜곡 문제는 기업 내 생성 AI의 광범위한 도입에 있어 주요 장벽이 되어왔습니다. Vectara의 제품 책임자인 Shane Connelly는 블로그 포스트에서 왜곡을 효과적으로 정량화하는 데 있어 역사적으로 어려움이 있었다고 강조했습니다. 이전의 시도들은 너무 추상적이거나 논란의 여지가 있는 주제를 포함해 기업들이 실제로 적용하기 어려운 경우가 많았습니다.
Vectara가 만든 Hallucination Evaluation Model은 오픈 소스이며, 이를 통해 기업들이 Retrieval Augmented Generation(RAG) 프레임워크에서 언어 모델의 신뢰성을 평가할 수 있습니다. 이 모델은 Hugging Face를 통해 제공되어 사용자가 독특한 요구사항에 맞게 사용자화할 수 있습니다.
Connelly는 “우리의 목표는 기업들이 철저하고 정량화된 분석을 통해 생성 시스템을 자신 있게 구현할 수 있도록 통찰력을 제공하는 것입니다.”라고 말합니다. AI 출력을 명확히 이해함으로써 기업들은 생성 AI 기술의 미묘한 차이를 더 잘 탐색할 수 있습니다.