AWS推出新型HPC即服务:让超算访问更平易近人

亚马逊的云服务AWS推出了新的托管产品——AWS并行计算服务,旨在实现高性能计算(HPC)的普及。该服务使AWS客户能够在不需要专门系统管理员的情况下,访问强大的计算服务器,以处理大型计算密集型任务。

AWS高级计算与仿真总监伊安·科尔(Ian Colle)表示,这种增强的访问能力可以显著加速科技创新和科学发现,而这些通常依赖于HPC集群。“许多现有工作负载实际上可以受益于高性能计算资源,但由于HPC通常被视为仅适用于大型企业,这种观念常常抑制了探索的积极性,”科尔解释道。

科尔相信,随着企业发现使用新的HPC集群服务的便利性,这种观念将会改变,进而促进更多实验。“我们正在减少管理负担,并消除对HPC集群的巨额资本投资需求。现在,您只需一个AWS账户,就可以运行实验并评估工作负载的可扩展性,”他补充道。

服务特色

AWS并行计算服务允许用户设置和管理Amazon的弹性计算云(EC2)实例组。该服务利用开源HPC工作负载管理器Slurm,简化集群维护,免去专职系统管理员的需求。

之前,AWS提供HPC集群的访问,但用户需自行管理管理资源。如今,客户希望扩展科学和工程工作负载时,可以在AWS上利用熟悉的工具,包括管理控制台和软件开发工具包。Slurm的集成使用户能够无缝迁移现有工作流程到AWS HPC集群,无需重新架构。企业也可以轻松连接任何API。

科尔强调,AWS的服务简化了集群管理,使客户能够完全将Slurm管理的责任转移给该服务。

可用性

该服务目前在美国的俄亥俄州、北弗吉尼亚州和俄勒冈州,以及欧洲的法兰克福、斯德哥尔摩和爱尔兰,亚太地区的悉尼、新加坡和东京等多个AWS区域提供。部分AWS客户,包括德国的Marvel Fusion公司,已提前获得订阅,以展示HPC集群的多种用例。Marvel Fusion利用该服务进行无上限零排放能源的研究,而澳大利亚的Ronin公司则在云中利用它进行HPC仿真。

HPC集群的日益增长需求

随着公司越来越依赖计算能力来训练大型语言模型和其他人工智能基础,HPC集群的需求迅速上升。HPC网络现已不仅对药物发现等重大计算至关重要,也适用于多种人工智能工作负载。

传统上,只有大型政府实验室和大型企业可以接触超算,硬件制造商如AMD、英特尔、英伟达和IBM则在为这些客户争相创造更快的系统。然而,来自各类公司的兴趣增加,加速了AWS、谷歌、微软Azure和企鹅计算等云服务提供商推出“HPC即服务”产品的步伐。

Gartner分析师托尼·哈维(Tony Harvey)指出,尽管HPC即服务并不是新概念,但不断演变的使用场景促使更多企业寻求超算的访问。“随着更多新产品的推出,竞争将在这一领域加剧,尤其是HPC的使用不仅限于人工智能,”哈维表示。

他补充道,普及HPC资源的访问权限减少了对高性能超算(如位于田纳西州的Hewlett Packard Frontier单位)长达数月的排队等待时间。“这使得新的用户能够获取这些资源,最大限度地提高研究人员和从事实验及预测建模的实践者的时间价值,”哈维总结道。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles