메타의 최근 연구 보고서에 따르면, 16,384개의 NVIDIA H100 그래픽 카드를 클러스터로 활용하여 40.5억 개의 매개변수를 가진 LLaMA 3 모델을 학습하는 과정에서 54일간 419회의 예기치 않은 오류가 발생했습니다. 이는 평균적으로 매 3시간마다 하나의 오류가 발생한 것입니다. 이러한 오류의 절반 이상이 GPU와 그 고대역폭 메모리(HBM3)에서 비롯되었습니다.
대규모와 높은 동기화된 작업 환경에서는 GPU 하나의 오류가 전체 학습 프로세스를 중단시킬 수 있으며, 이로 인해 재시작이 필요합니다. 그럼에도 불구하고 메타 팀은 90% 이상의 효과적인 학습 시간을 유지했습니다. 54일간의 사전 학습 기간 동안, 47회의 계획적 중단과 419회의 예기치 않은 중단을 포함해 총 466회의 중단이 발생했습니다. 계획적 중단은 주로 자동 유지보수에 의한 것이었고, 예기치 않은 중단은 주로 하드웨어 문제에서 비롯되었습니다. 특히, GPU 관련 문제는 이러한 예기치 않은 중단의 58.7%를 차지했습니다.
419회의 예기치 않은 중단 중 148회(30.1%)는 NVLink 오류를 포함한 다양한 GPU 문제에서 발생했으며, 72회(17.2%)는 GPU의 HBM3 메모리 결함에 기인했습니다. 54일 동안 CPU는 단 두 번만 오류가 발생했습니다. 또한, 예기치 않은 중단의 41.3%는 소프트웨어 오류, 네트워크 케이블 문제, 네트워크 어댑터의 문제로 설명되었습니다.
효율성을 높이기 위해 메타 팀은 작업 시작 및 체크포인트 시간을 단축하고, PyTorch의 NCCL 프로파일러를 활용하여 성능 문제를 진단하며 성능이 저조한 GPU를 식별하는 등 다양한 도구와 최적화 전략을 개발했습니다. 팀은 또한 오후 시간의 온도 변화와 데이터 센터의 전력망에서 여러 GPU를 동시에 운영하는 스트레스 등 환경 요인이 GPU 성능에 미치는 영향을 연구했습니다.
AI 모델의 매개변수가 계속 증가함에 따라 필요한 계산 자원도 증가하고 있습니다. 예를 들어, xAI가 계획 중인 100,000개의 H100 GPU 클러스터는 실패율을 크게 높여 향후 AI 학습에 더욱 큰 도전을 제시할 수 있습니다.