全球最强大的超级计算机正快速发展,Nvidia和Intel处于增强计算能力、特别是AI应用领域的前沿。在丹佛举行的超级计算大会2023(SC23)上,最新的500强超级计算机排名被揭晓,值得注意的是,所有这些系统都采用了Nvidia或Intel的组件,往往是二者的结合。这次大会也是讨论下一代超级计算机的平台,强调它们所使用的技术和预期应用。
Nvidia展示了其JUPITER超级计算机,位于德国尤利希研究中心。JUPITER配备了24,000颗Nvidia GH200芯片,旨在成为最强大的AI超级计算机,实现超过90 exaflops的AI训练性能。Nvidia还推出了加速AI的新技术,包含H200和基于Grace Hopper GH200超级芯片的先进四核配置。
另一方面,Intel推广其在美国能源部阿贡国家实验室开发的Aurora超级计算机,支持创建革命性的1万亿参数的大型语言模型(LLM)。Intel还展示了AI加速和GPU技术的进步,力求在与Nvidia的竞争中占据优势。
Nvidia的Grace Hopper超级芯片:AI的游戏规则改变者
Nvidia的Grace Hopper超级芯片兼具CPU和GPU功能,自5月起全面生产。这些芯片现已成为最强超级计算机的重要组成部分。Nvidia数据中心产品解决方案总监Dion Harris表示:“随着Grace Hopper的推出,新一波的AI超级计算机正在出现。”
Grace Hopper GH200为JUPITER超级计算机提供动力,适用于天气预测、药物研发和工业工程等应用。JUPITER与ParTec、Eviden和SiPearl合作,采用四核GH200架构,通过在单个节点上使用四颗GH200芯片大幅提升性能。
Harris解释道:“四核GH200采用创新的节点架构,配备288个Neoverse ARM核心,实现16 petaflops的AI性能和每秒2.5 terabytes的高速内存。”该系统通过Nvidia的Quantum-2 InfiniBand网络互联24,000颗GH200芯片。Nvidia计划将四核GH200架构扩展到其他超级计算机上。
Nvidia还推出了独立的H200硅片,这是一款将在Nvidia HGX H200服务器板上提供的离散GPU。Harris补充道:“HGX H200平台配备更快的高速内存,将为高性能计算和AI推理工作负载提供卓越性能。”
Intel在超级计算领域的进展
Intel在SC23上展示了其高性能计算和AI技术的显著进展。Intel数据中心和AI/HPC解决方案副总裁兼总经理Ogi Brkic谈到了公司在AI和HPC加速方面的举措。
Brkic强调了Intel数据中心GPU Max系列和Intel Habana Gaudi 2加速器,作为重要组件,服务于剑桥大学的Dawn Phase 1超级计算机项目,目前是英国最快的AI超级计算机,配备512个Intel Xeon CPU和1024个Intel数据中心GPU Max系列GPU。
Aurora是另一个雄心勃勃的项目,由Intel、HP企业和美国能源部共同建造。这台超级计算机将开发一个最大的语言模型AuroraGPT,包含1万亿个参数,用于科学研究。当前正在64个节点上进行训练,目标是扩展到超过10,000个节点。
Brkic指出:“我们与微软Deepspeed优化团队紧密合作,以确保1万亿参数的LLM对所有人都可用。这个模型的潜在应用覆盖生物学、化学、药物研究和宇宙学等所有科学领域。”