Nvidia与Intel在MLPerf 3.1基准测试中创造大型语言模型训练速度新纪录

Home AI News CN Nvidia与Intel在MLPerf 3.1基准测试中创造大型语言模型训练速度新纪录

Updated on 十一月 8 2023

2023年，人工智能模型的训练速度显著加快，最新的MLPerf Training 3.1基准测试揭示了这一趋势。生成性人工智能领域的创新速度令人惊叹，而快速的模型训练是这种进展的关键因素。MLCommons的MLPerf基准测试跟踪并量化了训练效率，MLCommons是一个开放的工程联盟，致力于改善机器学习基准、数据集和最佳实践，以推动人工智能的发展。

在MLPerf Training 3.1的基准测试中，来自19家供应商的提交结果超过200条。本轮测试涵盖了大型语言模型（LLM）训练的基准，包括GPT-3，并引入了针对开源文本生成图像模型Stable Diffusion的新基准。“通过超过200条性能结果，我们看到性能提升幅度在50%到近3倍之间。”MLCommons执行董事David Kanter在最近的新闻发布会上表示。

LLM训练超越摩尔定律

MLPerf Training 3.1基准测试的一个突出特点是大型语言模型训练的显著性能提升。自6月份首次纳入LLM训练数据以来，MLPerf 3.1基准显示LLM训练性能几乎提升了3倍。Kanter提到：“将6月首次基准中的最快LLM训练与最新结果进行对比，我们取得了约2.8倍的性能提升。尽管我无法预测未来的测试结果，但这种改进给人留下了深刻印象，表明了出色的能力。”

Kanter认为，最近AI训练的性能提升超出了摩尔定律的预测，该定律表明计算性能每几年翻一番。他指出，人工智能领域的硬件架构和软件扩展速度已经超出了这一预测。“MLPerf是行业进步的风向标，”Kanter补充道。

行业领军者的重大进展

英特尔、英伟达和谷歌在MLPerf Training 3.1基准测试中在LLM训练方面取得了显著进展。英特尔报告称，其Habana Gaudi 2加速器较6月的结果实现了103%的训练速度提升，采用了8位浮点（FP8）数据类型等技术。“我们通过较小的FP8数据类型与现有软件栈同步，提升了现有硬件的结果。”英特尔高级研究员Itay Hubara表示。

谷歌于8月29日推出的Cloud TPU v5e也展示了训练速度的提高，同样利用FP8优化性能。谷歌云加速器产品经理Vaibhav Singh讨论了通过Cloud TPU的多切片技术实现的扩展能力。“Cloud TPU多切片技术在数据中心网络中的扩展效果显著，”Singh解释道。“借助这一技术，我们在使用4096个TPU v5e芯片的情况下，实现了高达1024个节点的卓越扩展性能。”

英伟达的EOS超级计算机助力LLM训练

英伟达通过其EOS超级计算机最大化LLM训练效率，该超级计算机于2022年开始讨论。结果显示，与6月的基准相比，GPT-3模型的训练速度提升了2.8倍。英伟达加速计算产品总监Dave Salvator强调，EOS配备了10,752个通过英伟达Quantum-2 InfiniBand相连的GPU，运行速度为400千兆比特每秒，拥有860TB的HBM3内存。“我们看到的速度指标是非凡的，”Salvator表示。“在AI计算方面，我们的性能超过了40 exaflops，这非常了不起。”

总的来说，MLPerf Training 3.1基准测试彰显了人工智能训练的快速进展，这标志着人工智能进化的重要时刻。

Vanta报告：人工智能驱动的信任管理如何填补安全合规差距

深入解读OpenAI最新公告：对企业业务的影响