확장 가능한 AI 인프라 구축: 에너지 효율성에 초점
최근 열린 Hot Chips 2024 콘퍼런스에서 OpenAI의 하드웨어 인프라 책임자인 Trevor Cai는 "확장 가능한 AI 인프라 구축"이라는 주제로 기조연설을 했습니다. Cai는 컴퓨팅 자원을 확장함으로써 인공지능의 성능과 유용성을 크게 향상시킬 수 있으며, 이는 AI 개발의 미래를 위해 매우 중요한 통찰임을 강조했습니다.
Hot Chips는 프로세서 및 관련 기술의 발전을 소개하는 세계적인 주요 콘퍼런스입니다. 올해는 데이터 센터의 급증하는 에너지 수요와 관련하여 인공지능에 대한 논의가 특히 활발했습니다. Morgan Stanley의 연구에 따르면, 생성적 AI의 전력 소비는 향후 몇 년간 연평균 75% 증가할 것으로 예상되며, 2026년까지 스페인의 총 전력 소비와 일치할 것으로 보입니다.
에너지 효율 솔루션의 급증
양일 간 진행된 Hot Chips 2024 행사에서는 에너지 효율적이고 확장 가능한 AI 서버에 대한 집중적인 논의가 이뤄졌습니다. Trevor Cai는 컴퓨팅 능력이 증가함에 따라 AI 인프라에 대한 막대한 투자가 필요하다고 강조했습니다. 2018년 이후 최첨단 모델의 컴퓨팅 요구량이 약 4배 증가했으며, 원래 GPT-1 모델을 훈련하는 데 몇 주가 필요했지만 오늘날에는 방대한 GPU 클러스터가 필요합니다.
IBM은 새로운 AI 통합 방법을 자랑하는 Telum II 프로세서와 Spyre 가속기를 공개하며 에너지 소비와 물리적 공간을 줄이기 위한 노력을 소개했습니다. NVIDIA는 최대 100조 개의 매개변수를 훈련할 수 있는 Blackwell AI 클러스터 아키텍처를 선보이며, Quasar 양자화 시스템을 활용해 에너지 사용을 최소화하는 방법을 제시했습니다. Intel, Broadcom 및 SK Hynix와 같은 기업들도 에너지 효율 기술 솔루션을 발표하며 증가하는 에너지 수요에 대한 공동의 우려를 드러냈습니다.
에너지 수요와 환경 문제
인공지능의 급속한 발전은 보다 강력한 프로세서에 대한 수요를 증가시키고 있으며, 이는 데이터 센터의 전례 없는 에너지 소비로 이어지고 있습니다. Bloomberg에 따르면, 주요 기술 기업은 지난해 데이터 센터 인프라에 무려 1,050억 달러를 투자했습니다. AI 작업에 대한 컴퓨팅 요구가 증가함에 따라 국제 에너지 기구는 2026년까지 글로벌 데이터 센터의 에너지 소비가 일본의 전력 사용량과 일치할 것으로 예측하고 있습니다.
Hugging Face의 Sasha Luccioni는 AI 모델 훈련이 일반적으로 단일 라운드에서 이루어지지만, 잦은 질의가 에너지 소비를 증가시킨다고 지적했습니다. 예를 들어, ChatGPT에 대한 단일 질의는 전구를 20분간 켜는 것과 같은 에너지를 소모합니다. 이러한 수요는 전기 자원에 도전 과제를 제기하고 환경 문제를 야기합니다.
에너지 위기에 대응하기 위해 기술 기업들은 더 깨끗한 에너지원 탐색에 나서고 있습니다. Amazon은 전통적인 전력망에 대한 의존도를 줄이기 위해 펜실베니아에 핵발전 데이터 센터에 투자하고 있습니다. 한편, Google은 AI에 최적화된 전용 칩을 개발하여 에너지 효율성을 크게 향상시키고 있습니다.
NVIDIA의 연구에 따르면, 직접 액체 냉각 시스템을 사용하면 데이터 센터의 에너지 소비를 28% 줄일 수 있습니다. 그러나 위스콘신 대학교의 Sinclair 교수는 개별 작업의 에너지 효율성을 높이는 과정에서도 전체 사용량의 증가가 총 에너지 소비 증가로 이어질 수 있음을 경고합니다. 이러한 현상은 역사적으로나 현대 AI 개발 맥락에서도 적용 가능한 제본 Paradox입니다.
결론
AI 기술의 빠른 발전과 증가하는 에너지 수요는 기술 기업들이 혁신적이며 지속 가능한 솔루션을 찾아야 함을 시사합니다. Hot Chips 2024에서의 논의는 에너지 효율 기술에 대한 업계의 공동 초점을 반영하며, 미래 AI 인프라 개발의 방향성을 제시합니다.