2023年,人工智能模型的训练速度显著加快,最新的MLPerf Training 3.1基准测试揭示了这一趋势。生成性人工智能领域的创新速度令人惊叹,而快速的模型训练是这种进展的关键因素。MLCommons的MLPerf基准测试跟踪并量化了训练效率,MLCommons是一个开放的工程联盟,致力于改善机器学习基准、数据集和最佳实践,以推动人工智能的发展。
在MLPerf Training 3.1的基准测试中,来自19家供应商的提交结果超过200条。本轮测试涵盖了大型语言模型(LLM)训练的基准,包括GPT-3,并引入了针对开源文本生成图像模型Stable Diffusion的新基准。“通过超过200条性能结果,我们看到性能提升幅度在50%到近3倍之间。”MLCommons执行董事David Kanter在最近的新闻发布会上表示。
LLM训练超越摩尔定律
MLPerf Training 3.1基准测试的一个突出特点是大型语言模型训练的显著性能提升。自6月份首次纳入LLM训练数据以来,MLPerf 3.1基准显示LLM训练性能几乎提升了3倍。Kanter提到:“将6月首次基准中的最快LLM训练与最新结果进行对比,我们取得了约2.8倍的性能提升。尽管我无法预测未来的测试结果,但这种改进给人留下了深刻印象,表明了出色的能力。”
Kanter认为,最近AI训练的性能提升超出了摩尔定律的预测,该定律表明计算性能每几年翻一番。他指出,人工智能领域的硬件架构和软件扩展速度已经超出了这一预测。“MLPerf是行业进步的风向标,”Kanter补充道。
行业领军者的重大进展
英特尔、英伟达和谷歌在MLPerf Training 3.1基准测试中在LLM训练方面取得了显著进展。英特尔报告称,其Habana Gaudi 2加速器较6月的结果实现了103%的训练速度提升,采用了8位浮点(FP8)数据类型等技术。“我们通过较小的FP8数据类型与现有软件栈同步,提升了现有硬件的结果。”英特尔高级研究员Itay Hubara表示。
谷歌于8月29日推出的Cloud TPU v5e也展示了训练速度的提高,同样利用FP8优化性能。谷歌云加速器产品经理Vaibhav Singh讨论了通过Cloud TPU的多切片技术实现的扩展能力。“Cloud TPU多切片技术在数据中心网络中的扩展效果显著,”Singh解释道。“借助这一技术,我们在使用4096个TPU v5e芯片的情况下,实现了高达1024个节点的卓越扩展性能。”
英伟达的EOS超级计算机助力LLM训练
英伟达通过其EOS超级计算机最大化LLM训练效率,该超级计算机于2022年开始讨论。结果显示,与6月的基准相比,GPT-3模型的训练速度提升了2.8倍。英伟达加速计算产品总监Dave Salvator强调,EOS配备了10,752个通过英伟达Quantum-2 InfiniBand相连的GPU,运行速度为400千兆比特每秒,拥有860TB的HBM3内存。“我们看到的速度指标是非凡的,”Salvator表示。“在AI计算方面,我们的性能超过了40 exaflops,这非常了不起。”
总的来说,MLPerf Training 3.1基准测试彰显了人工智能训练的快速进展,这标志着人工智能进化的重要时刻。