기술 기업들이 온디바이스 AI 제공에 나서면서, 자원이 제한된 기기를 위한 소형 언어 모델(SLM)에 대한 연구가 급속히 확대되고 있습니다. 최근 Nvidia에서 발표한 Llama-3.1-Minitron 4B는 Llama 3 모델의 압축 버전으로, 고급 가지치기와 증류 기법을 활용하여 개발되었습니다. 이 새로운 모델은 더 큰 모델들과 경쟁할 수 있을 뿐만 아니라, 보다 효율적인 훈련 및 배포 과정을 제공합니다.
가지치기 및 증류 이해하기
가지치기와 증류는 더 작고 효율적인 언어 모델을 개발하는 데 중요한 기법입니다. 가지치기는 덜 중요한 구성 요소를 제거하는 것으로, "깊이 가지치기"는 완전한 레이어를 제거하고, "폭 가지치기"는 뉴런이나 주의 헤드와 같은 특정 요소를 폐기합니다.
모델 증류는 더 큰 "교사 모델"로부터 단순한 "학생 모델"에 지식을 전이하는 과정을 포함합니다. 두 가지 주요 접근 방식이 존재합니다:
1. SGD 훈련: 학생 모델이 교사의 입력 및 응답으로부터 학습합니다.
2. 고전적 지식 증류: 이 방법에서는 학생이 최종 결과뿐만 아니라 교사 모델의 중간 활성화로부터도 학습합니다.
Nvidia의 초기 연구에서는 가지치기와 고전적 지식 증류를 결합하여 Nemotron 15B 모델을 80억 매개변수를 가진 모델로 정제했습니다. 이후 원래 모델에서 가지치기된 버전으로의 증류 과정을 통해 40억 매개변수의 모델이 생성되었으며, 이 과정에서 MMLU 벤치마크에서 16%의 성능 향상을 이뤘고, 초기 데이터와 비교해 40배 적은 훈련 토큰을 사용했습니다.
Llama 3.1-Minitron 개발
Nvidia는 이전 기술을 바탕으로 Llama 3.1 8B 모델에 동일한 방법을 적용하여 40억 매개변수를 가진 버전을 만들었습니다. 이 과정은 940억 토큰의 포괄적인 데이터셋에서 가지치지 않은 8B 모델을 미세 조정하는 것으로 시작하여, 증류 과정 중 발생하는 분포 변화 문제를 해결했습니다.
이어 두 가지 형태의 가지치기가 적용되었습니다: 깊이만 가지치기하여 모델의 레이어를 50% 줄이고, 폭만 가지치기하여 특정 밀집 층의 뉴런을 50% 제거했습니다. 이러한 조정으로 Llama-3.1-Minitron 4B 모델의 두 가지 버전이 생산되었습니다.
가지치기된 모델은 NeMo-Aligner 도구를 사용하여 미세 조정되었으며, 이 도구에는 인간 피드백을 통한 강화 학습(RLHF) 및 Nvidia의 SteerLM과 같은 다양한 정렬 알고리즘이 포함되어 있습니다.
성능 결과
Nvidia는 Llama-3.1-Minitron 4B 모델을 지시 따르기, 역할 연기, 검색 보강 생성, 기능 호출 관련 작업에서 평가했습니다. 더 작은 트레이닝 데이터셋에도 불구하고, Llama-3.1-Minitron 4B는 Phi-2 2.7B 및 Gemma2 2.6B와 유사한 성능을 보여주면서도 훨씬 대형 모델임을 자랑합니다. 이는 훈련 비용과 추론 효율성 간의 매력적인 트레이드오프를 강조합니다.
모델의 폭 가지치기 버전은 현재 Nvidia Open Model License 하에 Hugging Face에서 제공되어, 개발자들이 더 넓은 접근성과 상업적 사용을 누릴 수 있도록 하고 있습니다.
Nvidia는 “가지치기와 고전적 지식 증류는 전통적인 방법에 비해 작고 고정확도의 대형 언어 모델을 비용 효율적으로 만드는 방법”이라고 강조합니다. 이 작업은 AI 발전에서 오픈 소스 커뮤니티의 중요한 역할을 강조하며, 가지치기와 증류 전략이 LLM을 최적화하는 동시에 비용을 최소화할 수 있는 방법을 보여줍니다. Sakana AI의 진화 모델 병합 알고리즘과 같은 다른 혁신적인 노력들은 AI 분야에서 저비용 훈련 솔루션의 잠재력을 더욱 부각시킵니다.