메타는 4050억 개의 파라미터를 자랑하는 Llama 3 모델의 훈련 과정에서 발생한 주요 문제를 자세히 다룬 포괄적인 연구 보고서를 최근 발표했습니다. 훈련은 16,384개의 Nvidia H100 GPU 클러스터에서 54일 동안 진행되었으며, 이 기간 동안 시스템은 419회의 예기치 않은 오류를 겪었습니다. 이는 평균적으로 약 3시간마다 한 차례 발생한 셈입니다. 특히, 이러한 오류의 절반 이상이 GPU와 그 고대역폭 메모리(HBM3)와 관련이 있었습니다.
메타의 Llama 3.1 오픈소스 모델 출시는 사용자들의 많은 관심을 끌고 있으며, 훈련 데이터의 출처, 합성 데이터의 비율, 혼합 전문가(MoE) 아키텍처의 부재, 인간 피드백으로부터의 강화 학습(RLHF) 과정, 모델 평가 방법 등에 대한 호기심이 커지고 있습니다. 또한 Llama 모델의 미래, 특히 Llama 4와 프록시 기술의 발전에 대한 기대도 큽니다.
Meta는 LLM의 파라미터 규모를 결정할 때 여러 요소인 스케일링 법칙, 훈련 기간, 하드웨어 한계를 고려했습니다. 연구는 스케일링 법칙과 전체 훈련 토큰의 제약 속에서 추론 효율성을 최적화하는 균형 잡힌 접근 방식을 확인했습니다. 4050억 개의 파라미터를 가진 Llama 3.1은 GPT-4와 견줄 만한 강력한 후보로 떠오르고 있습니다. 궁극적인 목표는 아직 달성되지 않았지만, 앞으로의 모델들은 더 큰 확장을 기대하고 있습니다.
Chinchilla 논문은 훈련 데이터 토큰의 총 수가 중요하다고 강조하며, 제한된 계산 전력 환경에서 모델 파라미터와 훈련 토큰 간의 최적 비율이 필수적임을 주장합니다. 메타는 추론 효율성을 높이기 위해 훈련 토큰과 훈련 기간을 모두 늘려, 오픈소스 커뮤니티에서의 더 넓은 채택을 위한 성능을 개선했습니다.
Llama 2와 유사한 구조에도 불구하고, Llama 3는 데이터 규모와 품질에서 상당한 개선을 이루었으며, 데이터셋의 크기가 2조에서 15조 토큰으로 증가했습니다. 현재 모델 개발의 추세는 사후 훈련 개선을 통해 벤치마크 점수를 향상시키는 데 집중되고 있으나, 모델 평가 방법은 여전히 해결되지 않은 연구 과제로 남아 있습니다. 과적합의 위험이 성능 향상 전이 가능성을 저해할 수 있는 우려가 있으며, Llama 4 모델 훈련은 6월부터 시작되었으며 프록시 기술에 중점을 두고 있을 것으로 보입니다.
Llama 3 훈련 중 빈번한 오류는 커다란 규모와 높은 동기화로 인한 것으로, 단 하나의 GPU 고장만으로도 전체 훈련 과정에 영향을 미칠 수 있었습니다. 발생한 419회의 예기치 않은 오류 중 약 58.7%가 GPU와 관련된 문제로, 다양한 NVLink 문제를 포함합니다. Nvidia의 H100 GPU가 과중한 부하에서 작동하기 때문에, 수동 개입이 필요한 사건이 세 건에 불과하였고, 나머지 문제는 자동으로 해결되었습니다.
효율적인 훈련 시간을 극대화하기 위해 Llama 3 팀은 자동 클러스터 유지 보수를 시행하여 90% 이상의 훈련 시간이 효율적으로 활용될 수 있도록 했습니다. 메타는 작업 시작 및 체크포인트 시간 최소화, PyTorch의 내장 NCCL 플라이트 레코더 활용, 느린 GPU 식별 등의 여러 도구 및 최적화 전략을 개발했습니다. NCCLX는 NVLink 및 RoCE 관련 문제에 대한 결함 탐지와 국소화에서 중요한 역할을 했습니다.
훈련 과정에서 수천 개 GPU의 전력 소비 변동은 데이터 센터의 전기 수요에 큰 도전이 되었습니다. 메타는 Llama 3 및 향후 더 큰 모델을 지원할 수 있는 충분한 전력 공급을 보장해야 합니다. 온도 변화와 같은 환경 요소도 훈련 성능에 영향을 미쳤으며, 예를 들어 Llama 3 훈련 중의 온도 변동은 GPU의 전압 및 주파수를 동적으로 조정하여 처리량에 약간의 변동을 일으켰습니다.
16,384개의 H100 GPU에서 하루 평균 7.76회의 오류 발생률을 기록한 xAI 멤피스 슈퍼컴퓨터는 10만 개의 H100 GPU를 장착하고 있어 더 높은 오류 발생률을 경험할 가능성이 있습니다. AI 모델의 파라미터 수가 계속 증가함에 따라, 계산 자원에 대한 수요도 함께 확대되고 있습니다. 이러한 도전에도 불구하고 메타는 대규모 AI 훈련에서 실패를 관리하고 효율성을 높이는 능력을 강하게 입증하며, 향후 더 대규모 모델 훈련의 강력한 기반을 다지고 있습니다.