MLCommons近日公布了最新的MLPerf推理结果,展示了新的生成式AI基准测试及Nvidia下一代Blackwell GPU处理器的首次验证性能指标。
作为一个多利益相关者的中立组织,MLCommons负责AI训练和推理的MLPerf基准测试。最新结果显示,来自22个组织的964个性能提交,为快速发展的AI硬件和软件生态提供了重要的概览。通过提供标准化和可重现的AI推理性能测量,MLPerf为企业决策者提供了应对AI部署复杂性的洞察,帮助他们平衡性能、效率和成本。
MLPerf推理v4.1的主要亮点
在MLPerf推理v4.1中,值得注意的更新是引入Mixture of Experts(MoE)基准测试,该测试评估Mixtral 8x7B模型的性能。本轮还展示了一系列新处理器和系统,包括AMD的MI300x、Google的TPUv6e(Trillium)、Intel的Granite Rapids、Untether AI的SpeedAI 240,以及Nvidia的Blackwell B200 GPU。
MLCommons创始人David Kanter对多样化的提交表示兴奋:“评估的系统范围越广,行业内的比较和洞察机会就越多。”
AI推理的MoE基准测试
本轮的一大进展是基于MoE方法的基准测试,旨在应对越来越大型语言模型带来的挑战。AMD高级技术人员Miro Hodak和MLCommons推理工作组主席表示,MoE方法不依赖单一大型模型,而是结合多个较小的特定领域模型,从而提高了部署效率。
MoE基准测试使用包含每个专家70亿参数的Mixtral 8x7B模型评估硬件性能。该模型涉及三项关键任务:
- 基于Open Orca数据集的问答
- 使用GSMK数据集的数学推理
- 基于MBXP数据集的编程任务
Hodak强调,MoE框架不仅比传统的单任务基准更好地利用模型的优势,还为企业提供了更高效的AI解决方案。
Nvidia的Blackwell GPU:推动AI推理的提升
MLPerf测试过程为厂商提供了一个展示即将推出的技术的平台,并通过严格的同行评审确保结果的可靠性。其中备受期待的是Nvidia的Blackwell GPU,该产品在三月首次公布。尽管用户需等几个月才能完全接触Blackwell,MLPerf推理v4.1结果已提供了其能力的初步展示。
Nvidia的Dave Salvator在近期的简报中表示:“这是我们对Blackwell的首次性能数据披露,我们很高兴分享这一结果。”
基准测试特别强调了基于MLPerf最大LLM工作负载Llama 2 70B的生成式AI工作负载性能。Salvator指出:“我们在每个GPU上实现了相较于上一代产品高出四倍的性能。”
除了新的Blackwell GPU,Nvidia还在持续挖掘现有硬件的潜力。MLPerf推理v4.1结果显示,自六个月前的基准测试以来,Hopper GPU的性能提高了27%,这一提升完全得益于软件的优化。
Salvator解释道:“这些性能提升仅来自软件。我们使用的硬件与之前相同,但持续的软件优化使我们能够实现更高的性能。”
通过这些进展,MLCommons最新的MLPerf推理结果为AI硬件的未来及其在各类企业应用中的部署潜力提供了重要的洞察。