마이크로소프트 연구진, 데이터 보강 대형 언어 모델 애플리케이션 개발을 위한 프레임워크 발표

대규모 언어 모델(LLMs)의 훈련 데이터를 넘어서는 지식을 통합하는 것은 기업 애플리케이션에 매우 중요합니다. 도메인별 및 고객 지식을 LLM에 통합하는 대표적인 방법은 검색 증강 생성(RAG)입니다. 그러나 기본 RAG 방법은 종종 한계가 있습니다.

효과적인 데이터 증강 LLM 애플리케이션을 구축하려면 여러 요소에 대한 세심한 고려가 필요합니다. 최근 Microsoft 연구자들은 외부 데이터 유형과 관련된 추론 복잡성을 기반으로 다양한 RAG 작업을 분류하는 프레임워크를 제안했습니다. 연구자들은 "데이터 증강 LLM 애플리케이션은 일관된 솔루션이 아니다"라고 언급하며, "전문 분야의 실제 요구는 복잡하고 제공된 데이터와의 관계 및 필요한 추론 방식에서 크게 달라질 수 있다"고 강조했습니다.

이러한 복잡성을 극복하기 위해 연구자들은 사용자 쿼리를 네 가지 수준으로 분류할 것을 제안합니다:

- 명시적 사실: 데이터에서 직접 명시된 사실을 검색하는 쿼리

- 암묵적 사실: 명시되지 않은 정보를 추론해야 하는 쿼리

- 해석 가능한 근거: 외부 자원에서 명시적 도메인 규칙을 이해하고 적용해야 하는 쿼리

- 숨겨진 근거: 데이터에 명시되지 않은 암묵적 추론 방법을 밝혀내야 하는 쿼리

각 쿼리 수준은 고유한 도전과제를 제시하며 맞춤형 솔루션이 필요합니다.

데이터 증강 LLM 애플리케이션의 범주

명시적 사실 쿼리

이 쿼리는 데이터에 명시된 사실 정보를 간단히 검색하는 데 초점을 맞춥니다. 특정 외부 데이터 조각에 대한 직접적인 의존성이 특징입니다. 기본 RAG가 일반적으로 사용되며, 이때 LLM은 지식 기반에서 관련 정보를 검색하여 응답을 생성합니다. 그러나 RAG 파이프라인의 모든 단계에서 도전과제가 발생합니다. 예를 들어, 인덱싱 단계에서는 RAG 시스템이 이미지 및 표와 같은 다중 모달 요소를 포함할 수 있는 대규모 비구조적 데이터셋을 관리해야 합니다. 다중 모달 문서 구문 분석 및 임베딩 모델은 텍스트 및 비텍스트 요소의 의미적 맥락을 공유 공간에 매핑하는 데 도움을 줄 수 있습니다.

정보 검색 단계에서는 검색된 데이터의 적절성이 중요합니다. 개발자는 합성 답변을 사용하여 문서 저장소와 쿼리를 정렬함으로써 검색 정확성을 향상시킬 수 있습니다. 또한, 응답 생성 단계에서는 LLM이 관련 정보를 구별하고 지식 기반의 노이즈를 무시할 수 있도록 세부 조정이 필요합니다.

암묵적 사실 쿼리

이 쿼리는 LLM이 단순한 검색을 넘어서는 추론을 필요로 합니다. 예를 들어, 사용자가 "회사 X는 지난 분기에 몇 개의 제품을 판매했나요?" 또는 "회사 X와 회사 Y의 전략적 차이는 무엇인가요?"와 같은 질문을 할 수 있습니다. 이러한 질문은 여러 출처의 데이터를 포함하는 멀티 홉 질문 응답이 필요합니다.

암묵적 사실 쿼리의 복잡성은 Interleaving Retrieval with Chain-of-Thought (IRCoT) 및 Retrieval Augmented Thought (RAT)와 같은 고급 RAG 기법을 요구합니다. 지식 그래프와 LLM을 결합하면 서로 다른 개념을 효과적으로 연결하여 복잡한 추론을 위한 구조적 방법을 제공합니다.

해석 가능한 근거 쿼리

이 쿼리는 LLM이 사실 콘텐츠와 함께 도메인별 규칙을 적용해야 합니다. 연구자들은 "해석 가능한 근거 쿼리는 근거를 위한 외부 데이터에 의존하는 직관적인 범주이다"라고 설명합니다. 이 유형은 특정 문제와 관련된 명확한 지침이나 사고 과정을 자주 포함합니다.

예를 들어, 고객 서비스 챗봇은 반품 처리에 대한 문서화된 프로토콜을 고객 상황과 통합해야 할 수 있습니다. 이러한 근거를 LLM에 통합하는 것은 도전적이며, 강화 학습 및 최적화된 프롬프트 평가와 같은 프롬프트 조정 기법이 필요할 수 있습니다.

숨겨진 근거 쿼리

이 쿼리는 데이터에 명시되지 않은 추론 방법을 포함하므로 가장 큰 도전 과제를 안고 있습니다. 예를 들어, 모델이 현재 문제에 적용할 수 있는 패턴을 추출하기 위해 역사적 데이터를 분석해야 할 수 있습니다. 연구자들은 "숨겨진 근거 쿼리를 다루는 것은 여러 데이터 소스에 내재된 잠재적 지혜를 해독하고 활용하는 정교한 분석 기술을 요구한다"고 언급합니다.

이러한 쿼리의 효과적인 해결책은 LLM이 관련 정보를 선택하고 추출하도록 훈련하는 맥락 내 학습을 포함할 수 있습니다. 도메인별 세부 조정도 필수적일 수 있으며, 모델이 복잡한 추론에 참여하고 필요한 외부 데이터를 식별할 수 있도록 합니다.

LLM 애플리케이션 구축의 의미

Microsoft Research의 조사 및 프레임워크는 외부 데이터를 활용한 LLM의 발전을 보여주면서도 여전히 남아 있는 도전 과제를 강조합니다. 기업은 이 프레임워크를 활용하여 LLM에 외부 지식을 통합하는 데 정보에 기반한 결정을 내릴 수 있습니다. 기본 LLM의 많은 제한을 해결하는 RAG 기술이 있지만, 개발자는 선택한 방법의 능력과 한계를 인식하고 필요에 따라 더 정교한 시스템으로 업그레이드해야 합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles