구글, Cloud Next에서 기업 애플리케이션을 위한 AI 하이퍼컴퓨터 강화

2023년 12월, 구글은 성능 최적화된 하드웨어, 개방형 소프트웨어, 선도적인 머신러닝 프레임워크, 유연한 소비 모델을 통합한 혁신적인 슈퍼컴퓨터 아키텍처인 "AI 하이퍼컴퓨터"를 공개했습니다. 이 프로젝트는 Google Cloud 고객의 AI 훈련, 튜닝 및 제공 효율성을 향상시켜 Microsoft 및 Amazon과의 기업 시장 점유율 경쟁에 대응하는 것을 목표로 합니다.

Google Cloud 고객은 이 AI 하이퍼컴퓨터를 통해 자신만의 AI 모델과 애플리케이션을 훈련할 수 있습니다. Salesforce와 Lightricks와 같은 고객들은 Google Cloud의 TPU v5p AI 하이퍼컴퓨터를 활용하여 대규모 AI 모델을 성공적으로 훈련하고 있습니다.

2024년 라스베이거스에서 열린 Google Cloud Next 연례 컨퍼런스에서는 AI 하이퍼컴퓨터의 주요 업그레이드가 발표되었으며, 플랫폼을 이용하는 주요 고객이 증가하고 있음을 강조했습니다.

Google Cloud AI 하이퍼컴퓨터의 개선 사항

첫 번째 주요 업그레이드는 Google Cloud의 가장 강력하고 확장 가능하며 유연한 AI 가속기인 TPU v5p의 제공입니다. 또한, NVIDIA H100 텐서 코어 GPU로 구동되는 A3 메가 구성으로 Google Cloud의 A3 가상 머신(VM) 패밀리가 향상되었습니다. A3 메가 VM은 각각 800억 개의 트랜지스터를 포함한 이 최신 GPU를 활용할 예정입니다.

추가적으로, Google은 Nvidia의 최신 Blackwell GPU를 통합할 계획으로, 고성능 컴퓨팅(HPC)과 AI 워크로드 지원을 강화합니다. 여기에는 Nvidia HGX B200 및 GB200 NVL72 GPU가 탑재된 가상 머신이 포함되어, 까다로운 AI 및 데이터 분석 작업에 적합합니다. 냉각 방식의 GB200 NVL72 GPU는 실시간 LLM 추론을 제공하고 조 단위 파라미터 모델의 대규모 훈련을 지원합니다.

현재 삼바노바 및 구글의 스위치 트랜스포머와 같은 조 단위 파라미터 AI 모델이 출현하고 있으며, Nvidia 및 Cerebras와 같은 칩 제조업체들이 이러한 대형 모델을 위한 하드웨어 개발에 박차를 가하고 있습니다.

Character.AI와 같은 notable Google Cloud 고객들은 이미 현재의 A3 설정으로부터 혜택을 보고 있으며, CEO Noam Shazeer는 Google Cloud의 TPU 및 A3 VM을 사용하여 대규모 언어 모델(LLM)의 더 빠르고 효율적인 훈련과 추론이 가능해진다고 강조했습니다. 그는 새로운 플랫폼 세대에서 2배 이상의 비용 효율적인 성능을 기대한다고 언급했습니다.

AI 성능 향상을 위한 JetStream 도입

소프트웨어 면에서, Google Cloud는 대규모 언어 모델에 최적화된 추론 엔진 JetStream을 출시했습니다. 이 도구는 개방형 모델에서 달러당 성능을 향상시키고 JAX 및 PyTorch/XLA와 같은 프레임워크를 지원하여 비용을 감소시키면서 효율성을 높입니다.

AI 워크로드를 위한 업그레이드된 저장 솔루션

Google의 저장 솔루션도 개선되고 있습니다. 캐싱 기능 도입으로 데이터가 컴퓨팅 인스턴스 가까이에 배치되어 AI 훈련 속도가 빨라지고 GPU 및 TPU 효율성이 최적화되어 에너지 비용이 절감됩니다. 특히, Hyperdisk ML이라는 새로운 블록 저장 서비스는 AI 추론 및 서비스 워크플로우를 개선하여 모델 로드 시간을 최대 12배 단축합니다.

추가적으로, Cloud Storage FUSE는 훈련 처리량을 2.9배 증가시키고, Parallelstore는 전통적인 데이터 로더에 비해 훈련 속도를 최대 3.9배 가속화하는 캐싱 기능을 제공합니다. Filestore 시스템은 GPU와 TPU 간의 동시 데이터 접근을 가능하게 하여 훈련 시간을 56%까지 단축시킵니다.

협업 및 소프트웨어 업그레이드

Google은 새로운 협업을 촉진하고 JAX 기반의 확장 가능한 확산 및 언어 모델 구현을 도입하고 있습니다. PyTorch/XLA 2.3의 오픈 소스 코드 지원은 자동 분할 및 비동기 체크포인팅과 같은 기능을 통해 분산 훈련의 확장성을 향상시킵니다.

Hugging Face와 협력하여 Google Cloud의 Optimum-TPU는 고객이 Google의 TPU에서 AI 모델 훈련을 최적화하도록 지원합니다. 또한, Google은 개발자에게 AI 훈련 및 배포에 유연한 옵션을 제공하는 NVIDIA NIM 추론 마이크로서비스를 제공할 예정입니다.

사용 편의를 위해, Google Cloud는 고객이 AI 워크로드에 대한 GPU를 14일 간 예약할 수 있도록 하는 동적 워크로드 스케줄러를 도입합니다.

이러한 업데이트는 구글의 연구 및 혁신 솔루션에서 유래한 실제 비즈니스 혜택을 보여주며, AI 훈련 및 추론을 위한 통합되고 효율적이며 확장 가능한 환경을 만듭니다.

AI 하이퍼컴퓨터의 가격에 대한 세부 정보는 아직 공개되지 않았습니다. 이 플랫폼이 Microsoft Azure 및 AWS와 기업 AI 개발에서 어떻게 경쟁할지, 그리고 Google이 AI 하이퍼컴퓨터 개선 및 광범위한 지원에 대한 약속을 어떻게 유지할지 주목해야 합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles