MLPerf推理4.1结果：英伟达Blackwell首秀展现性能提升

Home Hardware CN MLPerf推理4.1结果：英伟达Blackwell首秀展现性能提升

MLCommons近日公布了最新的MLPerf推理结果，展示了新的生成式AI基准测试及Nvidia下一代Blackwell GPU处理器的首次验证性能指标。

作为一个多利益相关者的中立组织，MLCommons负责AI训练和推理的MLPerf基准测试。最新结果显示，来自22个组织的964个性能提交，为快速发展的AI硬件和软件生态提供了重要的概览。通过提供标准化和可重现的AI推理性能测量，MLPerf为企业决策者提供了应对AI部署复杂性的洞察，帮助他们平衡性能、效率和成本。

MLPerf推理v4.1的主要亮点

在MLPerf推理v4.1中，值得注意的更新是引入Mixture of Experts（MoE）基准测试，该测试评估Mixtral 8x7B模型的性能。本轮还展示了一系列新处理器和系统，包括AMD的MI300x、Google的TPUv6e（Trillium）、Intel的Granite Rapids、Untether AI的SpeedAI 240，以及Nvidia的Blackwell B200 GPU。

MLCommons创始人David Kanter对多样化的提交表示兴奋：“评估的系统范围越广，行业内的比较和洞察机会就越多。”

AI推理的MoE基准测试

本轮的一大进展是基于MoE方法的基准测试，旨在应对越来越大型语言模型带来的挑战。AMD高级技术人员Miro Hodak和MLCommons推理工作组主席表示，MoE方法不依赖单一大型模型，而是结合多个较小的特定领域模型，从而提高了部署效率。

MoE基准测试使用包含每个专家70亿参数的Mixtral 8x7B模型评估硬件性能。该模型涉及三项关键任务：

- 基于Open Orca数据集的问答

- 使用GSMK数据集的数学推理

- 基于MBXP数据集的编程任务

Hodak强调，MoE框架不仅比传统的单任务基准更好地利用模型的优势，还为企业提供了更高效的AI解决方案。

Nvidia的Blackwell GPU：推动AI推理的提升

MLPerf测试过程为厂商提供了一个展示即将推出的技术的平台，并通过严格的同行评审确保结果的可靠性。其中备受期待的是Nvidia的Blackwell GPU，该产品在三月首次公布。尽管用户需等几个月才能完全接触Blackwell，MLPerf推理v4.1结果已提供了其能力的初步展示。

Nvidia的Dave Salvator在近期的简报中表示：“这是我们对Blackwell的首次性能数据披露，我们很高兴分享这一结果。”

基准测试特别强调了基于MLPerf最大LLM工作负载Llama 2 70B的生成式AI工作负载性能。Salvator指出：“我们在每个GPU上实现了相较于上一代产品高出四倍的性能。”