亞馬遜的雲端服務AWS致力於使高效能計算(HPC)更具可及性,推出了全新的管理產品AWS平行計算服務。此服務使AWS客戶能夠存取強大的計算伺服器,進行大型的計算密集型工作負載,而無需專屬的系統管理員。
AWS的高級計算與模擬總監伊恩·科爾(Ian Colle)表示,這種更便利的訪問方式可以顯著加速技術創新和科學發現,這些通常依賴於HPC集群。他解釋道:“許多現有的工作負載均可受惠於高效能計算資源,但由於普遍認為這只適用於大型企業,往往會讓人們不敢嘗試。”
科爾相信,隨著企業發現使用新服務的HPC集群變得簡單,這種看法會發生變化,從而促進更大的實驗性。“我們減輕了管理負擔,並消除了對HPC集群的重大資本投資需求。現在,您只需擁有一個AWS帳戶即可進行實驗並評估工作負載的擴展性,”他補充道。
服務特色
AWS平行計算服務允許用戶設置和管理亞馬遜彈性計算雲(Amazon EC2)實例的集群。該服務利用開源HPC工作負載管理器Slurm,簡化集群維護,無需專屬的系統管理員。
過去,AWS只提供HPC集群的訪問,但用戶需自行管理行政資源。現在,渴望擴展科學和工程工作負載的客戶可以在AWS上利用熟悉的工具,包括管理控制台和軟體開發套件。Slurm的整合使得用戶能夠無縫遷移現有工作流程到AWS HPC集群,而無需重新架構。企業也能輕鬆連接任何API。
科爾強調,AWS的服務簡化了集群管理,使客戶可以完全將Slurm管理的工作負擔轉交給該服務。
可用性
該服務最初在數個AWS區域提供,包括美國的俄亥俄州、北弗吉尼亞州和俄勒岡州;歐洲的法蘭克福、斯德哥爾摩和愛爾蘭;以及亞太地區的悉尼、新加坡和東京。一些AWS客戶,包括德國的Marvel Fusion,已提前獲得使用權,展示了HPC集群的多種應用案例。Marvel Fusion利用該服務進行無限零排放能源的研究,而澳大利亞的Ronin則在雲端中運用HPC模擬。
HPC集群的需求增長
隨著企業越來越依賴計算能力來訓練大型語言模型及其他AI基礎,對HPC集群的需求激增。HPC網絡不僅在藥物發現等重大計算中至關重要,還在多種AI工作負載中發揮作用。
傳統上,只有大型政府實驗室和大型企業可以使用超級計算機,硬體製造商如AMD、Intel、Nvidia和IBM則為這些客戶競爭開發更快的系統。然而,來自不同公司的興趣上升加速了雲端服務提供商(如AWS、Google、Microsoft Azure和Penguin Computing on Demand)推出“HPC即服務”的增長。
Gartner分析師Tony Harvey指出,儘管“HPC即服務”並不新鮮,但不斷演變的用例促使越來越多的公司尋求使用超級計算機的途徑。“我們預計隨著更多服務的出現,這一領域的競爭將會加劇,特別是目前HPC的應用已經超越了單一的AI範疇,”Harvey表示。
他補充道,開放HPC資源的使用,使高效能超級計算機(例如田納西的Hewlett Packard Frontier單元)的等待時間縮短,該設備通常有幾個月的等待名單。“這使新用戶能夠訪問這些資源,最大化研究人員和從事實驗及預測建模的工作者的時間價值,”Harvey總結道。