机器学习与人工智能培训的创新提速
机器学习(ML)和人工智能(AI)培训领域正快速发展,尤其是随着更复杂的生成性AI任务的出现。今天,MLCommons发布了MLPerf 4.0培训基准,展示了创纪录的性能水平。作为行业内广泛认可的供应商中立标准,该基准得到了17个组织的支持和超过205个结果的贡献。这一版本是自2023年11月以来MLPerf培训的首次更新。
MLPerf 4.0基准涵盖了重要的进展,包括使用Stable Diffusion进行的图像生成和GPT-3的大语言模型(LLM)培训。值得注意的是,新推出的LoRA基准优化了Llama 2 70B语言模型在文档摘要中的表现,着重于参数效率。
与上个周期相比,成果显著。
“与六个月前相比,一些基准的性能提升接近2倍,尤其是Stable Diffusion的表现,”MLCommons创始人兼执行董事David Kanter在新闻发布会上表示。“仅在半年内就实现了这样的进步,实在令人惊叹。”
具体而言,Stable Diffusion的培训速度比2023年11月快1.8倍,而GPT-3的培训速度提高了多达1.2倍。
AI培训性能:超越硬件
虽然硬件在AI模型培训中扮演了重要角色,软件和集群内的网络连接同样至关重要。
“AI培训性能依赖于各类提升效率的关键因素,”Kanter指出。“任务的分配以及多个处理器或加速器之间的通信至关重要。”
供应商们不仅利用优质芯片,还结合先进的算法和扩展能力,随着时间的推移提升性能。
Nvidia在Hopper架构下的培训领导地位
Nvidia在MLPerf 4.0基准中表现突出,在九个测试工作负载中实现了五个的全新性能记录。令人惊讶的是,这些基准主要是在与2023年6月相同的核心硬件平台上设定的。
Nvidia的AI总监David Salvator强调了H100 Hopper架构的持续价值。“在Nvidia的发展历程中,我们通常能通过产品生命周期中的软件创新实现2到2.5倍的性能提升,”他表示。
Nvidia采取了多种策略来提升MLPerf 4.0的性能,包括全栈优化、精细调优的FP8内核和优化的cuDNN FlashAttention。
MLPerf培训基准对企业的重要性
MLPerf基准为组织提供有关培训性能的标准化指标,但其价值超过了单纯的数字。
Salvator指出,现有硬件的性能增强证明了Nvidia能够从成熟架构中获得持续利益。随着组织规划新的部署,特别是在本地部署时,初始投资后的持续改进潜力至关重要。
“在性能的重要性方面,简单的回答是,它推动了企业的投资回报率,”他总结道。