대형 언어 모델(LLM)의 발전은 다양한 데이터 유형을 숫자로 변환하는 임베딩 모델에 대한 관심을 촉진했습니다. 임베딩 모델은 기업 환경에서 LLM의 주요 응용인 검색 강화 생성(RAG)에 필수적입니다. 그러나 그 가능성은 RAG를 넘어 확장됩니다. 지난 1년 동안 임베딩 응용의 눈부신 발전이 있었으며, 2024년에는 더 많은 혁신이 기대됩니다.
임베딩의 작동 원리
임베딩은 이미지나 텍스트 문서와 같은 데이터를 가장 중요한 특성을 나타내는 숫자 목록으로 변환합니다. 방대한 데이터셋으로 훈련된 임베딩 모델은 다양한 유형의 데이터를 구별하는 법을 배웁니다. 컴퓨터 비전에서는 객체, 형태, 색상과 같은 특성을 강조할 수 있습니다. 텍스트 응용에서는 개념, 위치, 사람, 조직 등과 관련된 의미 정보를 캡처합니다.
RAG 응용에서는 임베딩 모델이 회사 문서의 특성을 인코딩하며, 각 문서의 임베딩을 비교를 위한 특화된 데이터베이스인 벡터 스토어에 저장합니다. 새로운 프롬프트가 제시되면 시스템은 해당 임베딩을 계산하고 유사한 값을 가진 문서를 검색합니다. 관련 문서 내용은 프롬프트에 통합되어 LLM이 맥락에 맞는 응답을 생성하도록 안내합니다. 이 간소화된 프로세스는 LLM이 훈련 데이터에 포함되지 않은 독점 정보를 바탕으로 통찰력을 제공할 수 있도록 맞춤화하여, 정보 부족으로 인해 부정확한 사실을 생성하는 환각 문제를 해결합니다.
기본 RAG를 넘어
RAG는 LLM 기능을 크게 향상시켰지만, 검색과 임베딩의 이점은 단순한 문서 일치를 넘어선다고 합니다. Qdrant의 CEO인 안드레 자이아르니는 "임베딩은 주로 검색을 위해 사용되며, 개념 시각화를 향상시키는 데 자주 활용됩니다. 그러나 검색의 범위는 광범위하여 다양한 기업 응용을 지원할 수 있습니다."라고 말합니다. 그는 검색이 LLM 사용 사례의 근본적인 요소라고 강조하며, LlamaIndex는 SQL 데이터베이스와의 인터페이스 및 워크플로 자동화와 같은 다양한 작업과 LLM 프롬프트를 연결하는 도구와 프레임워크를 개발 중입니다.
임베딩은 문서 검색을 넘어 다양한 응용에서 유용성을 발휘합니다. 일리노이 대학교와 칭화 대학교 연구자들은 임베딩을 활용하여 LLM을 훈련하기 위한 가장 관련성이 높고 다양한 학습 데이터의 하위 집합을 선택하는 기법을 개발하여, 훈련 비용을 크게 줄이면서 품질을 유지할 수 있게 했습니다.
기업 응용의 임베딩
Qdrant의 CEO 안드레 자이아르니는 "벡터 임베딩은 비정형 또는 반정형 데이터를 다루도록 해주며, 의미 검색—RAG는 의미 검색의 한 형태입니다—은 단지 하나의 응용입니다."라고 설명합니다. 그는 텍스트 데이터 외에도 이미지, 오디오 및 비디오를 포함하는 확장이 중요하며, 새로운 다중모드 변환기가 이를 facilitated할 것이라고 언급했습니다. Qdrant는 이미 이상 탐지, 추천 시스템 및 시계열 분석 등 다양한 응용에 임베딩 모델을 적용하고 있습니다.
점차 더 많은 기업들이 방대한 비정형 데이터를 처리하기 위해 임베딩 모델을 활용하여 고객 피드백과 소셜 미디어 게시물을 분류하고 트렌드와 감정의 변화를 식별하고 있습니다. Cohere의 임베딩 리드인 닐스 라이머스는 "임베딩은 대량의 데이터세트를 분석하여 트렌드와 통찰력을 얻고자 하는 기업에 이상적입니다."라고 설명합니다.
임베딩 미세 조정
2023년에는 맞춤형 데이터셋으로 LLM을 미세 조정하는 데 발전이 있었으나, 이 과정은 여전히 도전적입니다. 필요한 데이터와 전문 지식을 갖춘 기업만이 효과적으로 미세 조정할 수 있습니다. 리우는 "RAG에서 미세 조정으로의 흐름이 있을 가능성이 높습니다. 처음에는 접근성을 위해 RAG를 활용하고, 이후 미세 조정을 통해 최적화할 것입니다."라고 예상합니다. 그는 더 많은 기업들이 오픈 소스 모델의 개선과 함께 LLM과 임베딩을 미세 조정할 것으로 보지만, 미세 조정이 더욱 간편해지지 않는 한 RAG를 활용하는 기업보다 그 수는 적을 것이라고 덧붙였습니다.
임베딩의 미세 조정은 데이터 이동에 민감성이 있는 등 자체적인 어려움을 동반합니다. 짧은 쿼리로 훈련할 경우 긴 쿼리의 성능에 부정적인 영향을 미칠 수 있고, 그 반대도 마찬가지입니다. "무엇(who) 질문에 대한 훈련은 왜(why) 질문에 대한 성능을 저해할 수 있습니다." 라이머스는 언급했습니다. 그럼에도 불구하고 임베딩 모델의 훈련 과정을 간소화하는 데 strides가 이루어졌습니다. 마이크로소프트의 연구에 따르면, Mistral-7B와 같은 사전 훈련된 모델을 강력한 LLM에 의해 생성된 소형 데이터셋으로 임베딩 작업을 미세 조정할 수 있어, 전통적인 자원이 많이 소모되는 방법을 간소화할 수 있습니다.
LLM과 임베딩 모델의 빠른 발전에 비추어 볼 때, 향후 몇 달 안에 더욱 흥미로운 발전이 있을 것으로 기대됩니다.