Llama 3의 빈번한 훈련 실패: 16,384 H100 GPU 클러스터의 '스트라이크' 분석(3시간 간격)

Home Hardware Llama 3의 빈번한 훈련 실패: 16,384 H100 GPU 클러스터의 '스트라이크' 분석(3시간 간격)

메타의 최근 연구 보고서에 따르면, 16,384개의 NVIDIA H100 그래픽 카드를 클러스터로 활용하여 40.5억 개의 매개변수를 가진 LLaMA 3 모델을 학습하는 과정에서 54일간 419회의 예기치 않은 오류가 발생했습니다. 이는 평균적으로 매 3시간마다 하나의 오류가 발생한 것입니다. 이러한 오류의 절반 이상이 GPU와 그 고대역폭 메모리(HBM3)에서 비롯되었습니다.

대규모와 높은 동기화된 작업 환경에서는 GPU 하나의 오류가 전체 학습 프로세스를 중단시킬 수 있으며, 이로 인해 재시작이 필요합니다. 그럼에도 불구하고 메타 팀은 90% 이상의 효과적인 학습 시간을 유지했습니다. 54일간의 사전 학습 기간 동안, 47회의 계획적 중단과 419회의 예기치 않은 중단을 포함해 총 466회의 중단이 발생했습니다. 계획적 중단은 주로 자동 유지보수에 의한 것이었고, 예기치 않은 중단은 주로 하드웨어 문제에서 비롯되었습니다. 특히, GPU 관련 문제는 이러한 예기치 않은 중단의 58.7%를 차지했습니다.

419회의 예기치 않은 중단 중 148회(30.1%)는 NVLink 오류를 포함한 다양한 GPU 문제에서 발생했으며, 72회(17.2%)는 GPU의 HBM3 메모리 결함에 기인했습니다. 54일 동안 CPU는 단 두 번만 오류가 발생했습니다. 또한, 예기치 않은 중단의 41.3%는 소프트웨어 오류, 네트워크 케이블 문제, 네트워크 어댑터의 문제로 설명되었습니다.

효율성을 높이기 위해 메타 팀은 작업 시작 및 체크포인트 시간을 단축하고, PyTorch의 NCCL 프로파일러를 활용하여 성능 문제를 진단하며 성능이 저조한 GPU를 식별하는 등 다양한 도구와 최적화 전략을 개발했습니다. 팀은 또한 오후 시간의 온도 변화와 데이터 센터의 전력망에서 여러 GPU를 동시에 운영하는 스트레스 등 환경 요인이 GPU 성능에 미치는 영향을 연구했습니다.

AI 모델의 매개변수가 계속 증가함에 따라 필요한 계산 자원도 증가하고 있습니다. 예를 들어, xAI가 계획 중인 100,000개의 H100 GPU 클러스터는 실패율을 크게 높여 향후 AI 학습에 더욱 큰 도전을 제시할 수 있습니다.

Llama 3 메타 훈련에서의 잦은 실패: NVIDIA GPU가 성능을 저하시키고 있는가?

퀄컴 스냅드래곤 8 Gen 4 출시: 오리온 CPU가 모바일 게임의 새로운 시대를 열다

Most people like

Stylar

43.4K

오늘날 빠르게 변화하는 디지털 세계에서 인공지능(AI)의 발전은 특히 의류 쇼핑 방식을 변화시켰습니다. 가상 착용 기술은 소비자들이 집에서 나가지 않고도 옷이 자신에게 어떻게 보일지를 시각화할 수 있게 하여 쇼핑 경험을 향상시킵니다. 이 혁신적인 솔루션은 사람들이 패션을 대하는 방식을 변화시키고, 완벽한 옷을 찾는 과정을 더 쉽고 즐겁게 만들어줍니다. AI의 발전으로 가상 피팅룸은 소매업체와 소비자 모두에게 필수 도구가 되어, 오프라인 쇼핑과 온라인 쇼핑 간의 간극을 줄이고 있습니다.

가상 착의실 Other

Just Think

29.2K

교육자와 기업가를 위해 특별히 설계된 궁극적인 AI 도구 키트를 만나보세요. 이 강력한 리소스는 사용자가 인공지능을 효과적으로 활용하여 교수 방법을 향상시키고 비즈니스 운영을 간소화할 수 있도록 돕습니다.

AI 채팅 AI Chatbot

Cliplama

109.3K

자동화된 비디오 제작으로 소셜 미디어 전략을 간소화하세요. 오늘날 빠르게 변화하는 디지털 환경에서는 관객의 관심을 끌기 위해 매력적인 비디오 콘텐츠가 필수적입니다. 자동화 도구는 비디오 제작 방식을 혁신하여 매력적인 스토리를 공유하고, 제품을 선보이며, 팔로워들과 연결하는 과정을 더 쉽고 빠르게 만들어 줍니다. 브랜드의 온라인 존재감을 강화하려는 경우든, 개인 창작자로서 도달 범위를 확대하고자 하는 경우든, 자동화된 비디오 제작이 어떻게 소셜 미디어 게임을 발전시킬 수 있는지 알아보세요.

AI 비디오 제작 Text to Video

Sembly AI

74.4K

Sembly AI는 회의를 효율적으로 기록하고 요약하여 협업을 더 쉽고 생산적으로 만들어 주는 혁신적인 스마트 어시스턴트입니다.

AI 팀 어시스턴트 AI Meeting Assistant

Find AI tools in YBX