Nvidia의 Llama-3.1-Minitron 4B: 기대 이상으로 성능을 발휘하는 강력한 소형 언어 모델

Home AI 뉴스 Nvidia의 Llama-3.1-Minitron 4B: 기대 이상으로 성능을 발휘하는 강력한 소형 언어 모델

기술 기업들이 온디바이스 AI 제공에 나서면서, 자원이 제한된 기기를 위한 소형 언어 모델(SLM)에 대한 연구가 급속히 확대되고 있습니다. 최근 Nvidia에서 발표한 Llama-3.1-Minitron 4B는 Llama 3 모델의 압축 버전으로, 고급 가지치기와 증류 기법을 활용하여 개발되었습니다. 이 새로운 모델은 더 큰 모델들과 경쟁할 수 있을 뿐만 아니라, 보다 효율적인 훈련 및 배포 과정을 제공합니다.

가지치기 및 증류 이해하기

가지치기와 증류는 더 작고 효율적인 언어 모델을 개발하는 데 중요한 기법입니다. 가지치기는 덜 중요한 구성 요소를 제거하는 것으로, "깊이 가지치기"는 완전한 레이어를 제거하고, "폭 가지치기"는 뉴런이나 주의 헤드와 같은 특정 요소를 폐기합니다.

모델 증류는 더 큰 "교사 모델"로부터 단순한 "학생 모델"에 지식을 전이하는 과정을 포함합니다. 두 가지 주요 접근 방식이 존재합니다:

1. SGD 훈련: 학생 모델이 교사의 입력 및 응답으로부터 학습합니다.

2. 고전적 지식 증류: 이 방법에서는 학생이 최종 결과뿐만 아니라 교사 모델의 중간 활성화로부터도 학습합니다.

Nvidia의 초기 연구에서는 가지치기와 고전적 지식 증류를 결합하여 Nemotron 15B 모델을 80억 매개변수를 가진 모델로 정제했습니다. 이후 원래 모델에서 가지치기된 버전으로의 증류 과정을 통해 40억 매개변수의 모델이 생성되었으며, 이 과정에서 MMLU 벤치마크에서 16%의 성능 향상을 이뤘고, 초기 데이터와 비교해 40배 적은 훈련 토큰을 사용했습니다.

Llama 3.1-Minitron 개발

Nvidia는 이전 기술을 바탕으로 Llama 3.1 8B 모델에 동일한 방법을 적용하여 40억 매개변수를 가진 버전을 만들었습니다. 이 과정은 940억 토큰의 포괄적인 데이터셋에서 가지치지 않은 8B 모델을 미세 조정하는 것으로 시작하여, 증류 과정 중 발생하는 분포 변화 문제를 해결했습니다.

이어 두 가지 형태의 가지치기가 적용되었습니다: 깊이만 가지치기하여 모델의 레이어를 50% 줄이고, 폭만 가지치기하여 특정 밀집 층의 뉴런을 50% 제거했습니다. 이러한 조정으로 Llama-3.1-Minitron 4B 모델의 두 가지 버전이 생산되었습니다.

가지치기된 모델은 NeMo-Aligner 도구를 사용하여 미세 조정되었으며, 이 도구에는 인간 피드백을 통한 강화 학습(RLHF) 및 Nvidia의 SteerLM과 같은 다양한 정렬 알고리즘이 포함되어 있습니다.

성능 결과

Nvidia는 Llama-3.1-Minitron 4B 모델을 지시 따르기, 역할 연기, 검색 보강 생성, 기능 호출 관련 작업에서 평가했습니다. 더 작은 트레이닝 데이터셋에도 불구하고, Llama-3.1-Minitron 4B는 Phi-2 2.7B 및 Gemma2 2.6B와 유사한 성능을 보여주면서도 훨씬 대형 모델임을 자랑합니다. 이는 훈련 비용과 추론 효율성 간의 매력적인 트레이드오프를 강조합니다.

모델의 폭 가지치기 버전은 현재 Nvidia Open Model License 하에 Hugging Face에서 제공되어, 개발자들이 더 넓은 접근성과 상업적 사용을 누릴 수 있도록 하고 있습니다.

Nvidia는 “가지치기와 고전적 지식 증류는 전통적인 방법에 비해 작고 고정확도의 대형 언어 모델을 비용 효율적으로 만드는 방법”이라고 강조합니다. 이 작업은 AI 발전에서 오픈 소스 커뮤니티의 중요한 역할을 강조하며, 가지치기와 증류 전략이 LLM을 최적화하는 동시에 비용을 최소화할 수 있는 방법을 보여줍니다. Sakana AI의 진화 모델 병합 알고리즘과 같은 다른 혁신적인 노력들은 AI 분야에서 저비용 훈련 솔루션의 잠재력을 더욱 부각시킵니다.

인도가 NVIDIA 가속 컴퓨팅을 활용하여 톨게이트 교통 관리를 효율화하는 방법

GPT-4o의 파인 튜닝 잠금을 해제하세요: 9월 23일까지 매일 100만 개의 무료 토큰을 누리세요!

Most people like

denser.ai

46.3K

웹사이트나 문서의 잠재력을 활용하여 동적인 챗봇으로 변환하세요.

챗봇 AI Chatbot

Upscayl - Free AI Image Upscaler

603.7K

무료로 제공되는 AI 도구의 힘을 활용해 보세요. 이미지 업스케일링을 위해 특별히 설계된 이 도구는 사진작가, 디자이너, 시각을 향상시키고자 하는 모든 분들에게 적합합니다. 세부 사항을 손상시키지 않으면서 이미지 품질을 쉽게 향상시킬 수 있는 이 혁신적인 기술을 경험해보세요. 오늘 바로 AI 기반 이미지 업스케일링의 변화를 체험해 보세요!

이미지 업스케일링 AI Image Enhancer

SEO Bot

SEO 봇은 바쁜 창립자들을 위한 AI 기반 플랫폼으로, SEO와 블로깅을 관리하여 여러분의 시간을 절약하고 핵심 비즈니스에 집중할 수 있게 도와줍니다.

SEO 최적화 AI SEO Assistant

Speak Ai

89.8K

오늘날의 디지털 환경에서, 필기, 연구, 데이터 분석 및 자연어 처리(NLP) 소프트웨어는 정보를 효과적으로 활용하는 데 중요한 역할을 합니다. 이러한 도구들은 기업과 연구자들이 오디오를 텍스트로 변환하고, 원시 데이터를 실행 가능한 통찰력으로 전환하며, 언어 패턴을 분석할 수 있게 돕습니다. 이러한 기술을 활용함으로써 조직들은 생산성을 향상시키고, 혁신을 촉진하며, 정보에 기반한 결정을 내릴 수 있어, 각 분야에서 더 큰 성공을 거둘 수 있습니다.

전사 Large Language Models (LLMs)

Find AI tools in YBX