최근 몇 년간 대규모 언어 모델(LLM)은 수백 개의 단어를 처리하는 것에서 여러 권의 책에 해당하는 콘텐츠를 동시에 관리할 수 있는 수준으로 발전하였습니다. 이러한 확장된 입력 용량, 즉 '맥락 창'은 이전에 상당한 엔지니어링 작업이 필요했던 새로운 응용 프로그램과 사용 사례를 열어주고 있습니다.
구글 딥마인드의 최근 연구에서는 확장된 맥락 창을 가진 LLM의 '많은 샷' 맥락 학습(ICL) 능력을 조사하였습니다. 연구 결과, 수백 개 또는 수천 개의 학습 예제를 단일 프롬프트에 포함시킴으로써 모델의 성능이 크게 향상될 수 있다는 것을 보여주었습니다. 이전에는 이러한 개선을 위해서 미세 조정이 필요했습니다.
Few-shot vs. Many-shot ICL
ICL은 LLM이 추론 중에 제공된 예제를 사용하여 새로운 작업을 학습할 수 있도록 합니다. 이는 문제를 해결한 여러 예제를 포함한 프롬프트를 모델에 제공하는 것을 포함합니다. 전통적으로 이러한 유형의 학습은 'few-shot learning'이라고 불렸습니다.
미세 조정과는 달리 ICL은 사용자 친화적이고 접근성이 뛰어나지만, 모델의 맥락 창에 제한을 받아왔습니다. 예를 들어, GPT-3는 약 2,000개의 토큰을 지원하여 프롬프트에 포함할 수 있는 예제의 수가 제한되었습니다. 그러나 현재 모델은 100,000개 이상의 토큰을 처리할 수 있으며, Gemini 1.5 Pro와 같은 모델은 백만 개 이상의 토큰을 처리할 수 있어 각 프롬프트에서 수백 또는 수천 개의 예제를 사용할 수 있습니다.
딥마인드 연구팀은 많은 샷 ICL이 LLM의 다양한 작업 성능에 미치는 영향을 조사했습니다. 여기에는 수학 문제 해결, 질문 응답, 결과 보상 모델링, 저자원 언어 번역, 계획, 감정 분석 등이 포함됩니다. 일부 프롬프트에는 최대 8,192개의 ICL 예제가 포함되었으며, 결과는 더 많은 예제를 추가할수록 성능이 향상된다는 것을 보여주었습니다. 번역 작업에서 Gemini Pro의 긴 샷 ICL은 쿠르드어와 타밀어에서 기록적인 결과를 달성했습니다. 요약 작업에서는 많은 샷 ICL 성능이 전문화된 미세 조정 모델과 동일한 수준에 도달했으며, 최적의 효과는 맥락 예제가 수십만 토큰으로 확장될 때만 달성되었습니다.
강화 및 비지도 ICL
많은 샷 ICL의 주요 도전 과제는 특히 추론 작업에서 고품질의 인간 생성 예제가 대량으로 필요하다는 점입니다. 연구자들은 인간 생성 데이터에 대한 의존도를 줄이기 위한 두 가지 전략을 제안합니다. 첫 번째 기법인 '강화 ICL'은 인간이 만든 예제를 모델 생성 이론으로 대체합니다. LLM은 몇 개의 샷 또는 제로 샷 사고 프로세스를 이용해 주어진 문제에 대한 여러 이론을 생성합니다. 정답 확인 메커니즘을 통해 검증된 이러한 응답은 문제/이론 쌍으로 구성된 ICL 데이터셋을 형성합니다.
두 번째 방법인 '비지도 ICL'은 모델의 내재적 문제 지식을 활용합니다. 이 접근 방식은 해결되지 않은 문제 목록과 대상 문제를 위한 제로 샷 또는 몇 개의 샷 프롬프트를 포함한 프롬프트를 사용하여 인간 생성 답변의 필요성을 없앱니다. 연구자들은 LLM이 작업을 해결하는 데 필요한 지식을 보유하고 있을 때 관련 맥락을 제공하는 것이 문제 해결에 필요한 내부 개념에 집중하는 데 도움이 된다고 가정합니다. 연구자들은 모델 생성 이론과 문제 전용 프롬프트 모두가 인간 생성 예제에 대한 의존도를 줄일 수 있음을 확인했습니다.
모델 행동 조정
연구 결과, 많은 샷 ICL은 사전 훈련 편향을 극복하고 LLM이 고전적인 훈련 없이도 비자연어 예측 작업을 효과적으로 학습할 수 있도록 할 수 있음이 밝혀졌습니다. 예를 들어, 연구자들은 감정 분석 데이터세트의 레이블을 LLM이 훈련 중 획득한 감정 편향과 모순되도록 변경하였고, ICL 예제가 추가됨에 따라 성능이 급격히 향상되어 기본 레이블에 거의 근접했습니다.
또한, 많은 샷 ICL이 모델을 선형 분류 및 순차적 패리티와 같은 일반적으로 특정 훈련 없이 어려운 작업에 재구성하는 데 성공적으로 활용되었습니다. 이는 LLM의 훈련 데이터와 일치하지 않을 수 있는 새로운 작업 및 도메인에 적응할 수 있는 많은 샷 학습의 잠재력을 강조합니다.
기업에 대한 의미
AI 연구소들이 LLM의 맥락 창을 확장하기 위해 노력함에 따라 일부 전문가들은 미세 조정 및 검색 보강 생성(RAG)과 같은 기술이 더 이상 필요하지 않을 수 있다고 주장합니다. 기업은 관련 정보, 예제 및 작업 지침이 포함된 프롬프트를 단순히 작성하면 될 것입니다.
하지만 현재 많은 샷 ICL은 확장 가능성이 없습니다. 매일 수천만 건의 요청을 받는 LLM 응용 프로그램의 경우 각 프롬프트를 몇 백 개의 예제로 확장하는 것은 속도와 추론 비용에 상당한 영향을 미칠 수 있습니다.
따라서 많은 샷 ICL은 LLM 응용 프로그램의 탐색 및 프로토타이핑 단계에서 귀중한 도구로 활용될 수 있으며, 개발자들이 맥락 창의 제약 없이 다양한 프롬프트 엔지니어링 기술을 실험할 수 있도록 합니다. 그럼에도 불구하고 제품의 효율적인 확장은 토큰 소비를 최소화하고 더 작고 빠르며 비용 효율적인 모델을 활용하는 데 달려 있습니다.