Nvidia는 차세대 Blackwell 그래픽 처리 장치(GPU)를 출시하며, AI 처리 작업에서 에너지 효율성을 25배 향상시키고 비용을 절감했습니다. 새로운 Nvidia GB200 Grace Blackwell 슈퍼칩은 여러 개의 칩을 하나의 패키지에 통합하여, 기존 모델 대비 대형 언어 모델(LLM) 추론 작업에서 최대 30배 성능 향상을 약속합니다. Nvidia GTC 2024의 기조 연설에서 CEO 젠슨 황은 Blackwell을 컴퓨팅의 중요한 진전으로 강조하며, 게임 제품 출시도 예정되어 있다고 밝혔습니다.
황은 자신이 선보인 프로토타입의 가치를 각각 100억 달러, 50억 달러라고 농담하며 Grace Blackwell 시스템의 중요성을 부각했습니다. “30년 동안 우리는 깊은 학습 및 AI의 혁신을 촉진하기 위해 가속화된 컴퓨팅을 추구해 왔습니다,”라고 그는 말했습니다. “생성적 AI는 우리 시대를 형성하고 있으며, Blackwell GPU는 모든 분야에서 이 산업 혁명을 이끌 것입니다.”
Nvidia는 Blackwell 기반 시스템이 조직이 트리릴리언 매개변수 모델에 대해 실시간 생성적 AI를 25배 낮은 비용과 에너지 소비로 배포할 수 있게 해줄 것이라 주장합니다. 처리 능력은 최대 10조 매개변수 모델까지 확장 가능합니다.
Nvidia는 Groq와 같은 추론 칩에 집중하는 기업과 Cerebras, AMD, Intel과 같은 고급 CPU 경쟁사에 대한 경쟁 우위를 유지하기 위해 Blackwell의 발전이 이전 모델보다 상당한 비용 및 에너지 효율성을 제공한다고 말합니다. Blackwell 플랫폼은 미국 국립과학아카데미에 최초로 가입한 아프리카계 수학자 데이비드 해롤드 블랙웰의 이름을 따왔으며, Nvidia의 Hopper 아키텍처를 잇는 새로운 가속화 컴퓨팅 기준을 설정했습니다. 원래 게임 그래픽용으로 설계된 GPU는 AI 처리의 핵심으로 자리 잡았으며, Nvidia의 시장 가치를 2.2조 달러로 끌어올리고 Nvidia GTC와 같은 이벤트에서 미디어의 주목을 받았습니다.
이 플랫폼은 데이터 처리, 엔지니어링 시뮬레이션, 전자 설계 자동화, 컴퓨터 보조 약물 설계, 양자 컴퓨팅, 생성적 AI 등 다양한 분야를 혁신할 수 있는 여섯 가지 혁신 기술을 도입합니다. 황은 Blackwell이 세계에서 가장 강력한 칩이 될 것이라며, 2080억 개의 트랜지스터가 TSMC의 고급 4NP 공정을 이용해 제조되어 처리 능력을 향상한다고 밝혔습니다. 두 번째 세대 변환기 엔진은 마이크로 텐서 스케일링 지원과 고급 다이나믹 레인지 관리를 포함하여 컴퓨팅 용량을 두 배로 늘리면서 혁신적인 4비트 부동 소수점 AI 추론 능력을 도입합니다.
Nvidia는 또한 다조직 트리릴리언 매개변수 AI 모델을 위한 고속 데이터 전송을 가능하게 하는 다섯 번째 세대 NVLink 네트워킹 기술을 출시했습니다. 최신 NVLink 버전은 GPU당 초당 1.8TB의 양방향 처리량을 제공하여 복잡한 LLM을 위해 최대 576개의 GPU 간 원활한 통신을 지원합니다. 또한 Blackwell GPU에 통합된 RAS 엔진은 AI 기반 유지보수를 통해 시스템 안정성을 향상시키고 운영 비용을 절감합니다.
Blackwell 아키텍처는 주요 서버 시스템에 필수적인 요소입니다. 고급 기밀 컴퓨팅 기능을 갖춘 이 시스템은 성능을 유지하며 AI 모델과 고객 데이터를 보호합니다—프라이버시가 중요한 산업에서 필수적입니다. 전용 압축 해제 엔진은 데이터베이스 쿼리를 가속화하여 데이터 분석 및 처리 성능을 향상시킵니다.
Nvidia GB200 NVL72는 1.4 엑사플롭의 AI 성능과 30TB의 빠른 메모리를 제공하는 랙 규모 시스템으로, Blackwell 슈퍼칩을 기반으로 구축되었습니다. 아마존, 구글, 메타, 마이크로소프트, OpenAI 등 주요 클라우드 제공업체와 AI 리더들이 이 플랫폼을 채택할 것으로 예상되어, 컴퓨팅 능력의 주요 전환을 예고합니다.
GB200 Grace Blackwell 슈퍼칩은 두 개의 Nvidia B200 텐서 코어 GPU를 900GB/s 초저전력 링크를 통해 Nvidia Grace CPU에 연결하여, Nvidia H100 텐서 코어 GPU보다 LLM 추론에서 최대 30배 성능 향상과 비용 및 에너지 소비의 25배 절감을 이룹니다.
GB200은 36개의 Grace Blackwell 슈퍼칩을 통합한 다중 노드 액체 냉각 NVL72 시스템의 핵심 구성 요소로, 72개의 Blackwell GPU와 36개의 Grace CPU가 다섯 번째 세대 NVLink를 통해 연결되어 있습니다. 또한, 이 시스템은 Nvidia BlueField-3 데이터 처리 장치를 통합해 클라우드 네트워킹, 저장 보안, 하이퍼 스케일 AI 애플리케이션을 위한 GPU 계산 유연성을 강화합니다.
Nvidia의 HGX B200 서버 보드는 여덟 개의 B200 GPU를 연결해 가장 앞선 x86 기반 생성적 AI 플랫폼을 지원하며, Nvidia의 Quantum-2 InfiniBand 및 Spectrum-X 이더넷 기술을 통해 최대 400Gb/s의 네트워킹 속도를 제공합니다. GB200은 주요 클라우드 서비스 제공업체와 공동 개발한 AI 플랫폼인 Nvidia DGX Cloud에서도 제공되어, 개발자들에게 고급 생성적 AI 모델을 구축하기 위한 필수 도구를 제공합니다. Cisco, Dell Technologies, Hewlett Packard Enterprise, Lenovo 및 Supermicro를 비롯한 여러 기업은 Blackwell 기술을 기반으로 다양한 서버를 제공할 것으로 예상됩니다.