마이크로소프트 연구진, 데이터 보강 대형 언어 모델 애플리케이션 개발을 위한 프레임워크 발표

Home AI 뉴스 마이크로소프트 연구진, 데이터 보강 대형 언어 모델 애플리케이션 개발을 위한 프레임워크 발표

대규모 언어 모델(LLMs)의 훈련 데이터를 넘어서는 지식을 통합하는 것은 기업 애플리케이션에 매우 중요합니다. 도메인별 및 고객 지식을 LLM에 통합하는 대표적인 방법은 검색 증강 생성(RAG)입니다. 그러나 기본 RAG 방법은 종종 한계가 있습니다.

효과적인 데이터 증강 LLM 애플리케이션을 구축하려면 여러 요소에 대한 세심한 고려가 필요합니다. 최근 Microsoft 연구자들은 외부 데이터 유형과 관련된 추론 복잡성을 기반으로 다양한 RAG 작업을 분류하는 프레임워크를 제안했습니다. 연구자들은 "데이터 증강 LLM 애플리케이션은 일관된 솔루션이 아니다"라고 언급하며, "전문 분야의 실제 요구는 복잡하고 제공된 데이터와의 관계 및 필요한 추론 방식에서 크게 달라질 수 있다"고 강조했습니다.

이러한 복잡성을 극복하기 위해 연구자들은 사용자 쿼리를 네 가지 수준으로 분류할 것을 제안합니다:

- 명시적 사실: 데이터에서 직접 명시된 사실을 검색하는 쿼리

- 암묵적 사실: 명시되지 않은 정보를 추론해야 하는 쿼리

- 해석 가능한 근거: 외부 자원에서 명시적 도메인 규칙을 이해하고 적용해야 하는 쿼리

- 숨겨진 근거: 데이터에 명시되지 않은 암묵적 추론 방법을 밝혀내야 하는 쿼리

각 쿼리 수준은 고유한 도전과제를 제시하며 맞춤형 솔루션이 필요합니다.

데이터 증강 LLM 애플리케이션의 범주

명시적 사실 쿼리

이 쿼리는 데이터에 명시된 사실 정보를 간단히 검색하는 데 초점을 맞춥니다. 특정 외부 데이터 조각에 대한 직접적인 의존성이 특징입니다. 기본 RAG가 일반적으로 사용되며, 이때 LLM은 지식 기반에서 관련 정보를 검색하여 응답을 생성합니다. 그러나 RAG 파이프라인의 모든 단계에서 도전과제가 발생합니다. 예를 들어, 인덱싱 단계에서는 RAG 시스템이 이미지 및 표와 같은 다중 모달 요소를 포함할 수 있는 대규모 비구조적 데이터셋을 관리해야 합니다. 다중 모달 문서 구문 분석 및 임베딩 모델은 텍스트 및 비텍스트 요소의 의미적 맥락을 공유 공간에 매핑하는 데 도움을 줄 수 있습니다.

정보 검색 단계에서는 검색된 데이터의 적절성이 중요합니다. 개발자는 합성 답변을 사용하여 문서 저장소와 쿼리를 정렬함으로써 검색 정확성을 향상시킬 수 있습니다. 또한, 응답 생성 단계에서는 LLM이 관련 정보를 구별하고 지식 기반의 노이즈를 무시할 수 있도록 세부 조정이 필요합니다.

암묵적 사실 쿼리

이 쿼리는 LLM이 단순한 검색을 넘어서는 추론을 필요로 합니다. 예를 들어, 사용자가 "회사 X는 지난 분기에 몇 개의 제품을 판매했나요?" 또는 "회사 X와 회사 Y의 전략적 차이는 무엇인가요?"와 같은 질문을 할 수 있습니다. 이러한 질문은 여러 출처의 데이터를 포함하는 멀티 홉 질문 응답이 필요합니다.

암묵적 사실 쿼리의 복잡성은 Interleaving Retrieval with Chain-of-Thought (IRCoT) 및 Retrieval Augmented Thought (RAT)와 같은 고급 RAG 기법을 요구합니다. 지식 그래프와 LLM을 결합하면 서로 다른 개념을 효과적으로 연결하여 복잡한 추론을 위한 구조적 방법을 제공합니다.

해석 가능한 근거 쿼리

이 쿼리는 LLM이 사실 콘텐츠와 함께 도메인별 규칙을 적용해야 합니다. 연구자들은 "해석 가능한 근거 쿼리는 근거를 위한 외부 데이터에 의존하는 직관적인 범주이다"라고 설명합니다. 이 유형은 특정 문제와 관련된 명확한 지침이나 사고 과정을 자주 포함합니다.

예를 들어, 고객 서비스 챗봇은 반품 처리에 대한 문서화된 프로토콜을 고객 상황과 통합해야 할 수 있습니다. 이러한 근거를 LLM에 통합하는 것은 도전적이며, 강화 학습 및 최적화된 프롬프트 평가와 같은 프롬프트 조정 기법이 필요할 수 있습니다.

숨겨진 근거 쿼리

이 쿼리는 데이터에 명시되지 않은 추론 방법을 포함하므로 가장 큰 도전 과제를 안고 있습니다. 예를 들어, 모델이 현재 문제에 적용할 수 있는 패턴을 추출하기 위해 역사적 데이터를 분석해야 할 수 있습니다. 연구자들은 "숨겨진 근거 쿼리를 다루는 것은 여러 데이터 소스에 내재된 잠재적 지혜를 해독하고 활용하는 정교한 분석 기술을 요구한다"고 언급합니다.

이러한 쿼리의 효과적인 해결책은 LLM이 관련 정보를 선택하고 추출하도록 훈련하는 맥락 내 학습을 포함할 수 있습니다. 도메인별 세부 조정도 필수적일 수 있으며, 모델이 복잡한 추론에 참여하고 필요한 외부 데이터를 식별할 수 있도록 합니다.

LLM 애플리케이션 구축의 의미

Microsoft Research의 조사 및 프레임워크는 외부 데이터를 활용한 LLM의 발전을 보여주면서도 여전히 남아 있는 도전 과제를 강조합니다. 기업은 이 프레임워크를 활용하여 LLM에 외부 지식을 통합하는 데 정보에 기반한 결정을 내릴 수 있습니다. 기본 LLM의 많은 제한을 해결하는 RAG 기술이 있지만, 개발자는 선택한 방법의 능력과 한계를 인식하고 필요에 따라 더 정교한 시스템으로 업그레이드해야 합니다.

캘리포니아 AI 법안 거부: 소규모 개발자와 모델이 번창할 수 있는 길

MIT 스핀오프 리퀴드, 최첨단 비변압기 AI 모델 출시

Most people like

MindBridge AI

25.3K

오늘날 빠르게 변화하는 금융 환경에서 위험을 관리하는 것은 성공에 필수적입니다. 우리는 금융 리스크 발견 분야의 글로벌 리더로서 자산과 투자에 대한 잠재적 위협을 식별하고 완화하는 데 전문화되어 있습니다. 우리의 혁신적인 솔루션은 기업이 재정 건전성을 보호하고 종합적인 리스크 평가 및 관리 전략을 통해 의사 결정을 향상시킬 수 있도록 지원합니다. 귀하의 조직이 회복력과 성장을 보장할 수 있도록 금융 리스크 발견의 기준을 새롭게 정의하는 데 함께하십시오.

재무 리스크 발견 AI Analytics Assistant

Noctie.ai

52.6K

어디서든 즉각적인 체스 전문가가 되어보세요.

체스 튜터 Game

Whatmore

12.9K

오늘날 디지털 환경에서 인공지능과 동영상 상거래의 융합은 소비자들의 온라인 쇼핑 방식을 혁신하고 있습니다. 저희 AI 기반 동영상 상거래 플랫폼은 매력적인 동영상 콘텐츠와 전자상거래 기능을 원활하게 통합하여 고객을 사로잡고 판매를 촉진하는 독특한 쇼핑 경험을 제공합니다. 고급 분석 및 개인화된 추천을 통해 기업은 고객 참여를 증대시키고 전환율을 최적화할 수 있습니다. 저희 혁신적인 솔루션이 귀사의 전자상거래 전략을 어떻게 변화시키고 경쟁이 치열한 시장에서 브랜드를 높일 수 있는지 알아보세요.

비디오 커머스 AI Analytics Assistant

APOB

222.2K

오늘날의 디지털 환경에서 AI 페르소나 생성 도구는 기업과 콘텐츠 제작자가 브랜드 아이덴티티를 개발하는 방식을 혁신하고 있습니다. 첨단 인공지능을 활용하여, 이러한 도구는 사용자가 목표 청중과 공명하는 상세하고 매력적인 페르소나를 만들 수 있도록 돕습니다. 마케팅 캠페인을 강화하고자 하는 마케터든, 공감할 수 있는 캐릭터를 만들고자 하는 작가든, AI 페르소나 생성 도구는 창의성과 데이터 기반 통찰력을 결합한 혁신적인 솔루션을 제공합니다. 이러한 강력한 도구가 페르소나 개발 접근 방식을 어떻게 변형하고 청중과의 연결을 강화할 수 있는지 알아보세요.

AI 제작 도구 AI Photo & Image Generator

Find AI tools in YBX