AWS 發布全新 HPC-as-a-Service：讓超級計算機的訪問變得更容易

Home AI新聞 AWS 發布全新 HPC-as-a-Service：讓超級計算機的訪問變得更容易

亞馬遜的雲端服務AWS致力於使高效能計算（HPC）更具可及性，推出了全新的管理產品AWS平行計算服務。此服務使AWS客戶能夠存取強大的計算伺服器，進行大型的計算密集型工作負載，而無需專屬的系統管理員。

AWS的高級計算與模擬總監伊恩·科爾（Ian Colle）表示，這種更便利的訪問方式可以顯著加速技術創新和科學發現，這些通常依賴於HPC集群。他解釋道：“許多現有的工作負載均可受惠於高效能計算資源，但由於普遍認為這只適用於大型企業，往往會讓人們不敢嘗試。”

科爾相信，隨著企業發現使用新服務的HPC集群變得簡單，這種看法會發生變化，從而促進更大的實驗性。“我們減輕了管理負擔，並消除了對HPC集群的重大資本投資需求。現在，您只需擁有一個AWS帳戶即可進行實驗並評估工作負載的擴展性，”他補充道。

服務特色

AWS平行計算服務允許用戶設置和管理亞馬遜彈性計算雲（Amazon EC2）實例的集群。該服務利用開源HPC工作負載管理器Slurm，簡化集群維護，無需專屬的系統管理員。

過去，AWS只提供HPC集群的訪問，但用戶需自行管理行政資源。現在，渴望擴展科學和工程工作負載的客戶可以在AWS上利用熟悉的工具，包括管理控制台和軟體開發套件。Slurm的整合使得用戶能夠無縫遷移現有工作流程到AWS HPC集群，而無需重新架構。企業也能輕鬆連接任何API。

科爾強調，AWS的服務簡化了集群管理，使客戶可以完全將Slurm管理的工作負擔轉交給該服務。

可用性

該服務最初在數個AWS區域提供，包括美國的俄亥俄州、北弗吉尼亞州和俄勒岡州；歐洲的法蘭克福、斯德哥爾摩和愛爾蘭；以及亞太地區的悉尼、新加坡和東京。一些AWS客戶，包括德國的Marvel Fusion，已提前獲得使用權，展示了HPC集群的多種應用案例。Marvel Fusion利用該服務進行無限零排放能源的研究，而澳大利亞的Ronin則在雲端中運用HPC模擬。

HPC集群的需求增長

隨著企業越來越依賴計算能力來訓練大型語言模型及其他AI基礎，對HPC集群的需求激增。HPC網絡不僅在藥物發現等重大計算中至關重要，還在多種AI工作負載中發揮作用。

傳統上，只有大型政府實驗室和大型企業可以使用超級計算機，硬體製造商如AMD、Intel、Nvidia和IBM則為這些客戶競爭開發更快的系統。然而，來自不同公司的興趣上升加速了雲端服務提供商（如AWS、Google、Microsoft Azure和Penguin Computing on Demand）推出“HPC即服務”的增長。

Gartner分析師Tony Harvey指出，儘管“HPC即服務”並不新鮮，但不斷演變的用例促使越來越多的公司尋求使用超級計算機的途徑。“我們預計隨著更多服務的出現，這一領域的競爭將會加劇，特別是目前HPC的應用已經超越了單一的AI範疇，”Harvey表示。

他補充道，開放HPC資源的使用，使高效能超級計算機（例如田納西的Hewlett Packard Frontier單元）的等待時間縮短，該設備通常有幾個月的等待名單。“這使新用戶能夠訪問這些資源，最大化研究人員和從事實驗及預測建模的工作者的時間價值，”Harvey總結道。

透過預訓練資料代碼提升大型語言模型在非編碼任務上的表現

Google的GameNGen：AI透過無需遊戲引擎來模擬《Doom》實現創新