Nvidia DGX SuperPOD:释放支持万亿参数AI模型的强大力量

Nvidia在GTC大会上推出了其迄今为止最强大的系统——DGX SuperPod。这一尖端系统是公司全面硬件和软件发布的一部分。

近年来,DGX已成为Nvidia服务器和云服务的重要支柱。新款DGX SuperPod配备了Nvidia下一代AI加速GPU——Blackwell,作为Hopper GPU的继任者。Blackwell的设计旨在支持拥有万亿参数的AI模型。

什么是DGX SuperPod?

DGX SuperPod不仅仅是单一服务器,而是多个DGX GB200系统的强大配置。每个系统包含36个Nvidia GB200超级芯片,集成了36个Nvidia Grace CPU和72个Nvidia Blackwell GPU,通过第五代Nvidia NVLink相连。这个超级计算平台可扩展至八个或更多DGX GB200系统,可以通过Nvidia Quantum InfiniBand连接数以万计的GB200超级芯片。

该系统提供高达240 TB的内存,这对训练大型语言模型(LLMs)和进行大规模生成AI推断至关重要。此外,DGX SuperPod提供令人震惊的11.5 exaflops的AI超级计算能力。

先进的网络与处理能力

DGX SuperPod的一个关键特点是其统一的计算架构,得益于新推出的Nvidia Quantum-X800 InfiniBand网络技术,为每个GPU提供高达1,800 GB/s的带宽。该系统还整合了Nvidia BlueField-3数据处理单元(DPU)和第五代Nvidia NVLink。

此外,DGX SuperPod采用了第四代Nvidia可扩展层次聚合与减少协议(SHARP)技术,实现了14.4 teraflops的网络内计算,较之前的版本增加了四倍。

Blackwell在Nvidia DGX Cloud中的应用

基于GB200的DGX系统将很快通过Nvidia的DGX Cloud服务推出,最初可在亚马逊云服务(AWS)、谷歌云和甲骨文云等主要平台上访问。

Nvidia超大规模和高性能计算副总裁Ian Buck表示:“DGX Cloud与我们的云合作伙伴合作设计,旨在为我们的AI研究和客户提供最佳的Nvidia技术。” 新的GB200架构还将提升Nvidia与AWS共同开发的Project Ceiba超级计算机,计划建设全球最大的公共云超级计算平台。

Buck宣布了一个令人振奋的进展:“Project Ceiba已经升级为Grace Blackwell架构,支持20,000个GPU,实现超过400 exaflops的AI算力。”

这些进展使Nvidia在AI技术领域保持领先地位,使DGX SuperPod成为AI研究和应用领域的卓越工具。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles