Nvidia在AI加速器领域并非孤军奋战;Intel凭借其Gaudi 2技术取得了显著进展,Databricks的最新研究对此进行了深入揭示。研究显示,Gaudi 2在与Nvidia主要AI加速器的竞争中表现强劲。在大型语言模型(LLM)推理方面,Gaudi 2在解码延迟上与Nvidia H100系统不相上下,并超过了Nvidia A100的性能。此外,Gaudi 2的内存带宽利用率高于H100和A100。
虽然Nvidia的顶级加速器在训练性能上依然占优,Databricks发现Gaudi 2的单节点LLM训练性能为第二快,紧随Nvidia H100之后,每个芯片的性能超过260 TFLOPS。值得注意的是,基于公共云定价,Gaudi 2在训练和推理的性价比上优于A100和H100。
Intel还通过MLcommons MLPerf基准测试分享Gaudi 2的测试结果,进一步通过第三方数据验证其性能。Databricks的首席自然语言处理架构师Abhinav Venigalla表示:“我们对Gaudi 2在LLM推理中的效率印象深刻。”他还提到,团队尚未充分探索Gaudi 2在最新软件版本中对FP8支持的性能优势。
与Databricks的发现相一致,Intel子公司Habana Labs的首席运营官Eitan Medina指出,该报告确认了Intel内部的性能指标和客户反馈。“验证我们的声明至关重要,特别是许多人认为Gaudi是Intel最大的秘密,”他强调了这样的出版物对于提升可见性的重要性。
自2019年以20亿美元收购Habana Labs及其Gaudi技术以来,Intel持续增强其能力。Intel与Nvidia积极参与MLcommons MLPerf基准测试,该基准会定期更新。最新的MLPerf 3.1基准于11月发布,展示了两家公司在LLM训练速度上的新纪录,同时在9月的推理基准中也表现竞争力。
虽然像MLPerf这样的基准测试提供了宝贵的见解,Medina指出许多客户优先考虑与特定模型和用例的兼容性。“软件栈的成熟度至关重要,因为客户有时对那些卖家高度优化特定指标的基准持怀疑态度。”他说,他将MLPerf结果视为公司在进一步测试前的有效初筛。
展望未来,Intel计划在2024年推出Gaudi 3 AI加速器。Gaudi 3基于5纳米工艺,承诺提供四倍于Gaudi 2的处理能力和两倍的网络带宽。Medina表示:“Gaudi 3代表了性能的显著跃升,提高了每美元和每瓦的性能。”
在Gaudi 3之后,Intel还计划开发集成高性能计算(HPC)和AI加速技术的下一代产品。公司同样认识到其CPU技术在AI推理工作负载中的重要性,最近宣布了具有AI加速的第五代Xeon处理器。Medina总结道:“CPU在推理和微调任务中仍然扮演着至关重要的角色,尤其是在与Gaudi加速器结合进行高密度AI计算工作负载时。”他提倡采用多样化的解决方案。