英伟达发布下一代Blackwell GPU:成本和能耗降低25倍!

英伟达推出了下一代Blackwell图形处理单元(GPU),其能效比提升了25倍,并降低了人工智能处理任务的成本。新款Nvidia GB200 Grace Blackwell超级芯片将多个芯片集成在一个封装内,相比于以前的型号,在大型语言模型(LLM)推理工作负载上可实现高达30倍的性能提升。在2024年英伟达GTC大会的主题演讲中,首席执行官黄仁勋强调Blackwell是计算领域的重要进展,并表示未来将推出针对游戏产品的相关技术。

黄仁勋幽默地提到,他展示的原型机价格达100亿美元和50亿美元,突显了Grace Blackwell系统的重要性。他表示:“三十年来,我们一直致力于加速计算,以推动深度学习和人工智能的突破。生成式人工智能正在塑造我们的时代,Blackwell GPU将推动各个行业的产业革命。”

英伟达声称,基于Blackwell的系统将使组织能够以25倍于Hopper架构更低的成本和能耗,将实时生成式人工智能应用于万亿参数模型。其处理能力可提升至支持高达10万亿参数的模型。

为保持与聚焦推理芯片的Groq以及高端CPU竞争对手Cerebras、AMD和英特尔的竞争优势,Blackwell的进步在成本和能效上相较于前代产品具有显著优势。Blackwell以数学家大卫·哈罗德·布莱克威尔命名,他是首位被纳入国家科学院的黑人学者。该平台是英伟达Hopper架构的继任者,为加速计算设定了新的基准。最初设计用于游戏图形的GPU,现已成为AI处理的核心,推动英伟达市值达到2.2万亿美元,并在如英伟达GTC等活动上吸引媒体关注。

Blackwell平台引入了六项创新技术,有望在数据处理、工程仿真、电子设计自动化、计算机辅助药物设计、量子计算和生成式人工智能等多个领域带来变革。黄仁勋表示,Blackwell将成为全球最强大的芯片,拥有2080亿个晶体管,采用台积电先进的4NP工艺制造,以增强处理能力。第二代变压器引擎支持微张量缩放和先进的动态范围管理,计算能力翻倍,同时推出创新的4位浮点AI推理能力。

英伟达还推出了第五代NVLink网络技术,使万亿参数AI模型能够实现高吞吐量。最新的NVLink版本为每个GPU提供1.8TB/s的双向吞吐量,促进多达576个GPU之间的无缝通信,以支持复杂的LLM。此外,集成在Blackwell GPU中的RAS引擎通过基于AI的维护手段增强了系统的可靠性,并降低了运营成本。

Blackwell架构将是主要服务器系统的关键组成部分。凭借先进的机密计算能力,它能够保护AI模型和客户数据,同时保持高性能,这对隐私敏感行业至关重要。专用解压引擎加速数据库查询,提高数据分析和处理性能。

基于Blackwell超级芯片构建的Nvidia GB200 NVL72是一个机架规模的系统,提供1.4 exaflops的AI性能和30TB的快速内存。主要云服务提供商和AI领导者,如亚马逊、谷歌、Meta、微软和OpenAI,预计将采用这一平台,标志着计算能力的重大转变。

GB200 Grace Blackwell超级芯片通过900GB/s超低功耗链接将两个Nvidia B200 Tensor Core GPU与Nvidia Grace CPU连接,实现了在LLM推理中的性能提升可达30倍,同时将成本和能耗降低了最多25倍。

GB200是多节点液冷NVL72系统的重要组成部分,结合了36个Grace Blackwell超级芯片,拥有72个Blackwell GPU和36个Grace CPU,采用第五代NVLink互连。此外,系统整合了Nvidia BlueField-3数据处理单元,提升云网络、存储安全和GPU计算灵活性,专为超大规模AI应用设计。

英伟达的HGX B200服务器板将八个B200 GPU相互连接,以支持领先的基于x86的生成式AI平台,网络速度通过英伟达的Quantum-2 InfiniBand和Spectrum-X以太网技术可达400Gb/s。

GB200还将在与主要云服务提供商共同开发的Nvidia DGX Cloud上提供,为开发者构建先进的生成式AI模型提供必要的工具。预计思科、戴尔科技、惠普企业、联想和超微等多家公司将基于Blackwell技术推出多种服务器。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles