Nvidia在GTC大会上推出了其迄今为止最强大的系统——DGX SuperPod。这一尖端系统是公司全面硬件和软件发布的一部分。
近年来,DGX已成为Nvidia服务器和云服务的重要支柱。新款DGX SuperPod配备了Nvidia下一代AI加速GPU——Blackwell,作为Hopper GPU的继任者。Blackwell的设计旨在支持拥有万亿参数的AI模型。
什么是DGX SuperPod?
DGX SuperPod不仅仅是单一服务器,而是多个DGX GB200系统的强大配置。每个系统包含36个Nvidia GB200超级芯片,集成了36个Nvidia Grace CPU和72个Nvidia Blackwell GPU,通过第五代Nvidia NVLink相连。这个超级计算平台可扩展至八个或更多DGX GB200系统,可以通过Nvidia Quantum InfiniBand连接数以万计的GB200超级芯片。
该系统提供高达240 TB的内存,这对训练大型语言模型(LLMs)和进行大规模生成AI推断至关重要。此外,DGX SuperPod提供令人震惊的11.5 exaflops的AI超级计算能力。
先进的网络与处理能力
DGX SuperPod的一个关键特点是其统一的计算架构,得益于新推出的Nvidia Quantum-X800 InfiniBand网络技术,为每个GPU提供高达1,800 GB/s的带宽。该系统还整合了Nvidia BlueField-3数据处理单元(DPU)和第五代Nvidia NVLink。
此外,DGX SuperPod采用了第四代Nvidia可扩展层次聚合与减少协议(SHARP)技术,实现了14.4 teraflops的网络内计算,较之前的版本增加了四倍。
Blackwell在Nvidia DGX Cloud中的应用
基于GB200的DGX系统将很快通过Nvidia的DGX Cloud服务推出,最初可在亚马逊云服务(AWS)、谷歌云和甲骨文云等主要平台上访问。
Nvidia超大规模和高性能计算副总裁Ian Buck表示:“DGX Cloud与我们的云合作伙伴合作设计,旨在为我们的AI研究和客户提供最佳的Nvidia技术。” 新的GB200架构还将提升Nvidia与AWS共同开发的Project Ceiba超级计算机,计划建设全球最大的公共云超级计算平台。
Buck宣布了一个令人振奋的进展:“Project Ceiba已经升级为Grace Blackwell架构,支持20,000个GPU,实现超过400 exaflops的AI算力。”
这些进展使Nvidia在AI技术领域保持领先地位,使DGX SuperPod成为AI研究和应用领域的卓越工具。