구글은 AI 모델의 라인업을 확장하여 중요한 도전 과제에 대응하고 있습니다. 오늘, 구글은 통계적 질의에서 대형 언어 모델(LLMs)의 부정확한 응답이 발생하는 '환각'을 줄이기 위해 설계된 오픈 소스, 지침 조정 모델의 모음인 DataGemma를 소개했습니다. 이러한 새로운 모델은 연구 및 학술 목적으로 Hugging Face에서 제공되며, 기존 Gemma 패밀리를 확장합니다. 구글의 데이터 커먼스 플랫폼에서 수집된 방대한 실제 데이터를 활용하고 있습니다. 이 공개 플랫폼은 경제, 과학, 건강 등 다양한 분야의 신뢰할 수 있는 조직에서 제공한 2400억 개 이상의 데이터 포인트로 구성된 오픈 지식 그래프를 보유하고 있습니다.
사실적 환각 대응
LLMs는 코드 생성부터 고객 지원, 기업 자원 최적화에 이르기까지 기술 혁신을 이끌어왔습니다. 그러나 수치 및 통계 데이터와 관련된 환각 문제는 여전히 남아 있습니다. 구글 연구자들에 따르면, 이러한 현상은 LLM 출력의 확률적 특성과 훈련 데이터의 사실적 커버리지가 부족하여 발생합니다. 전통적인 기초 기술은 공공 데이터의 다양한 스키마와 형식으로 인해 통계적 질의에 어려움을 겪고 있으며, 정확한 해석을 위해 상당한 맥락이 필요합니다.
이러한 격차를 해소하기 위해 연구자들은 가장 큰 공개 통계 데이터 저장소 중 하나인 데이터 커먼스를 Gemma 언어 모델과 통합하여 DataGemma를 만들었습니다.
정확성 향상을 위한 혁신적인 접근법
DataGemma는 사실 정확성을 개선하기 위해 두 가지 방법을 사용합니다:
1. 검색 인터리브 생성(RIG): 이 방법은 LLM의 원래 출력과 데이터 커먼스의 관련 통계를 비교하여 사실 정확성을 통합합니다. 다듬어진 LLM은 구조화된 데이터 질의로 변환되는 설명적 자연어 질의를 생성하며, 통계적으로 관련된 답변과 인용을 검색합니다.
2. 검색 증강 생성(RAG): 이 방법은 원래의 통계 질문을 사용하여 관련 변수를 추출하고 데이터 커먼스를 향한 자연어 질의를 형성하여 모델을 향상시킵니다. 추출된 데이터는 원래 질문과 결합되어 긴 맥락 LLM(여기서는 Gemini 1.5 Pro)에게 정확한 응답 생성을 유도하는 데 사용됩니다.
테스트에서의 유망한 결과
101개의 질의를 포함한 초기 테스트에서 RIG로 조정된 DataGemma 모델은 기준선보다 사실 정확성이 5-17% 향상되어 약 58%의 정확성을 달성했습니다. RAG는 약간 낮은 결과를 보였지만, 여전히 기준선 모델을 초과했습니다. DataGemma는 데이터 커먼스의 통계적 응답을 활용하여 24-29%의 질에 성공적으로 답변했으며, 수치 값에 대해서는 99%의 정확성을 유지했습니다. 하지만 6-20%의 경우에선 숫자에서 정확한 추론을 도출하는 데 어려움을 겪었습니다.
RIG와 RAG 기술 모두 연구 및 의사 결정 문맥에서 통계적 질의의 모델 정확성을 향상시키는 데 효과적임을 입증했습니다. RIG는 속도를 제공하고 RAG는 보다 방대한 데이터를 제공하지만, 정보의 가용성과 대규모 맥락 처리 능력에 의존합니다.
구글은 RIG와 RAG와 함께 DataGemma를 공개하여 이러한 방법에 대한 연구를 발전시킬 계획입니다. 구글은 "우리의 연구는 계속 진행 중이며, 이 작업을 확장하면서 이러한 방법론을 다듬어 나갈 것을 약속합니다. 철저한 테스트를 보장하고, Gemma 및 Gemini 모델에 이 향상된 기능을 점진적으로 통합할 것입니다."라고 밝혔습니다.