Nous Research는 이번 달 오픈 소스 Llama 3.1 변종인 Hermes 3를 공개하며 주목받았습니다. "개인화된 무제한 AI" 모델 개발에 주력하는 소규모 연구 팀은 또 다른 혁신, DisTrO(Distributed Training Over-the-Internet)를 발표했습니다. 이 새로운 최적화 도구는 AI 모델 훈련 중 GPU(그래픽 처리 장치) 간 데이터 전송을 크게 줄여줍니다.
DisTrO는 전 세계 개인과 기관이 소비자 수준의 인터넷 연결을 통해 협력하여 고급 AI 모델을 훈련할 수 있도록 하여 대기업이 훈련 과정을 독점할 필요를 없앱니다. 최근 기술 논문에서 Nous Research는 DisTrO가 인기 있는 All-Reduce 훈련 알고리즘에 비해 857배의 효율성 향상을 이룬다고 밝혔습니다. 또한 훈련 단계당 데이터 전송량을 74.4기가바이트에서 86.8메가바이트로 줄이면서 성능 저하를 최소화했습니다. 이 결과는 연구 논문의 아래 표에서 요약되어 있습니다.
결국 DisTrO는 강력한 AI 모델 훈련 접근을 민주화하여 더 많은 사람들이 기업의 장벽 없이 탐색하고 실험할 수 있는 기회를 제공합니다.
AI 훈련의 도전 과제: 높은 하드웨어 요구 사항
앞서 언급했듯이, 생성 AI의 폭발적인 성장으로 Nvidia의 GPU에 대한 수요가 치솟고 있습니다. 이러한 비싼 그래픽 카드들은 효율적이고 신속한 AI 훈련을 위한 병렬 처리 능력을 제공합니다. 훈련 과정은 훈련 데이터셋에서 학습한 통찰력을 공유하기 위해 GPU 클러스터 간의 통신에 크게 의존합니다.
이 "GPU 간 통신"은 지연 시간을 최소화하고 처리량을 극대화하기 위해 정밀하게 설계된 GPU 클러스터를 필요로 합니다. 따라서 Tesla와 같은 기업들은 수천 개의 GPU로 구성된 물리적 "슈퍼 클러스터"에 투자하고 있습니다.
이러한 엄격한 요구 사항으로 인해 생성 AI, 특히 가장 정교한 모델의 훈련은 자본 집약적인 작업으로, 주로 Tesla, Meta, OpenAI, Microsoft, Google, Anthropic과 같은 자금이 풍부한 기업에 접근 가능합니다.
각 조직은 고유한 훈련 방법론을 가지고 있지만, 모두 일반적으로 유사한 하드웨어를 사용하며 AI 훈련 과정을 엄격하게 통제하므로 신입 개발자나 비전문가가 유사한 매개변수 모델과 경쟁하기 어렵습니다. 그러나 Nous Research는 누구나 제한 없이 사용자 정의할 수 있는 접근 가능한 강력한 AI 개발을 옹호합니다.
DisTrO의 차별점
전통적인 AI 훈련 방법은 여러 GPU 간에 전체 그래디언트를 동기화하고 높은 대역폭 연결에 의존해야 합니다. 반면, DisTrO는 통신 오버헤드를 4~5배 줄입니다.
이 효율성을 가능하게 하는 특정 알고리즘은 전부 공개되지 않았으나, 저자들은 곧 더 많은 세부정보를 공유할 계획입니다. 이 감소는 분석을 의존하지 않고 수렴 속도를 저하시키지 않으면서 이루어져, 느린 인터넷 연결(100 Mbps 다운로드 및 10 Mbps 업로드)에서도 대규모 모델 훈련을 가능하게 했습니다.
연구 팀은 Meta의 Llama 2라는 12억 개 매개변수를 가진 대형 언어 모델(LLM)로 DisTrO를 테스트했습니다. 결과는 전통적인 방법과 유사한 훈련 성능을 나타내면서 데이터 전송을 크게 줄였습니다. 팀은 이 모델이 DisTrO와 함께 사용할 수 있는 가장 작은 효과적 모델이라고 언급하며, 대역폭 감소가 모델 크기와 어떻게 스케일링되는지는 확실치 않다고 합니다.
예비 테스트 결과, 미리 훈련 중 대역폭이 1000배에서 3000배 줄어들고, 후속 훈련 중에는 최대 10000배 감소하면서도 성능 저하가 없음을 확인했습니다. 또한 DisTrO가 Stable Diffusion과 같은 대규모 확산 모델 훈련에도 적용될 수 있을 것으로 추측하고 있습니다.
GPU의 지속적인 필요성
DisTrO는 여전히 GPU를 필요로 하지만, 이를 동일한 시설에 모여 있는 대신 전 세계적으로 분산된 방식으로 운영할 수 있게 합니다.
구체적으로, 평가에는 32개의 H100 GPU를 사용하는 분산 데이터 병렬 처리(DDP) 전략이 포함되었으며, 각 GPU가 VRAM에 전체 모델을 보관하고 있었습니다. 이 프레임워크는 DisTrO의 능력을 엄격하게 테스트할 수 있도록 하여, AdamW+All-Reduce의 수렴 속도와 일치하면서 통신 요구를 크게 줄일 수 있음을 입증했습니다.
DisTrO는 모델 품질을 희생하지 않고 전통적인 훈련 방법을 대체할 수 있으며, 대규모 분산 훈련을 위한 확장 가능한 솔루션을 제공합니다. 고속 연결의 필요성을 줄임으로써, 표준 인터넷 서비스를 사용하는 사용자 간의 분산 네트워크에서도 협업 모델 훈련을 가능하게 합니다.
연구 보고서는 DisTrO가 연합 학습 및 분산 훈련에 미치는 영향에 대해서도 다뤘습니다. 이 효율성은 기존 인프라를 최적화하고 대형 데이터 센터에 대한 의존도를 줄여 AI 훈련의 환경 영향을 완화하는 데 힘을 실을 수 있습니다.
더욱이, 이러한 혁신은 대규모 모델 훈련의 패러다임을 중앙 집중화된 자원 집약적인 데이터 센터에서 분산되고 협력적인 방식으로 전환할 수 있는 기회를 제공합니다.
Nous Research와 DisTrO의 다음 단계는?
연구 팀은 다른 이들이 DisTrO의 가능성을 탐구할 수 있도록 초대합니다. 초기 보고서와 추가 자료는 GitHub에서 제공되며, 이 혁신적인 기술을 다듬고 확장할 협력자를 적극적으로 찾고 있습니다.
AI 영향력자인 @kimmonismus는 이 연구가 분야에 혁신적일 수 있다고 칭찬하며 "이것이 모든 것을 바꿀 수 있습니다!"라고 전했습니다.
DisTrO를 통해 Nous Research는 AI 훈련 능력을 향상시킬 뿐만 아니라, 인공지능 분야의 중요한 발전을 이끌어낼 수 있는 보다 포용적인 연구 생태계를 조성하고 있습니다.