在2023年12月,Google公布了其“AI超級電腦”,這是一種先進的超級電腦架構,整合了性能優化的硬體、開放的軟體、領先的機器學習框架及靈活的消費模式。該計劃旨在提升Google Cloud客戶在AI訓練、調優及服務方面的效率與生產力,並與微軟和亞馬遜競爭企業市場份額。
Google Cloud客戶可虛擬訪問該AI超級電腦,進行自有AI模型和應用的訓練。值得注意的是,像Salesforce和Lightricks等客戶已成功利用Google Cloud的TPU v5p AI超級電腦訓練大型AI模型。在2024年拉斯維加斯舉行的Google Cloud Next年會上,Google展示了AI超級電腦的重大升級,強調該平台的高端客戶數量顯著增加。
Google Cloud AI超級電腦的升級
第一個重大升級是推出Google Cloud的第二代張量處理單元(TPU)v5p,這是其功能最強大、可擴展及靈活的AI加速器。此外,Google正在升級其A3虛擬機(VM)系列,推出由NVIDIA H100 Tensor Core GPU驅動的A3 Mega配置,預計於五月上市。A3 Mega虛擬機將利用這些先進的GPU,每個擁有800億個晶體管。
另外,Google計劃整合Nvidia最新的Blackwell GPU,提升對高性能計算(HPC)和AI工作負載的支持,包含特別設計的虛擬機,具備Nvidia HGX B200和GB200 NVL72 GPU,適用於運行高需求的AI和數據分析任務。液冷的GB200 NVL72 GPU將提供即時大規模語言模型(LLM)推斷,並支援萬億參數模型的大規模訓練。
儘管萬億參數AI模型仍在發展中(如SambaNova和Google的Switch Transformer),Nvidia及Cerebras等芯片製造商正競相開發適應這些日益增長的模型規模的硬體。
像Character.AI這樣的著名Google Cloud客戶(其市值超過10億美元)已經從現有的A3配置中獲益。CEO Noam Shazeer強調,他們使用Google Cloud的TPU和A3 VM使大型語言模型的訓練與推斷更快且更有效率。他提到,這一代平台的性能具備超過2倍的成本效益潛力。
引入JetStream以提升AI性能
在軟體方面,Google Cloud推出了JetStream,一個為大型語言模型優化的推斷引擎。這個工具提升了開放模型的每美元效能,並支持JAX和PyTorch/XLA框架,從而提高效率並降低成本。
AI工作負載的升級存儲解決方案
Google的存儲解決方案同樣在進行升級。新引入的緩存功能將數據置於計算實例更接近的地方,加速AI訓練,優化GPU和TPU的效率,並提高能源成本效益。值得注意的是,Hyperdisk ML,一項新的區塊存儲服務,改善AI推斷和服務工作流,提供高達12倍的模型加載速度。
其他升級還包括Cloud Storage FUSE,將訓練吞吐量提高2.9倍,以及Parallelstore,這項技術通過緩存將訓練速度提高到傳統數據載入器的3.9倍。Filestore系統允許GPU和TPU之間的同時數據訪問,提升訓練時間最高達56%。
合作與軟體升級
Google還在推動新合作,並為基於JAX的擴散及語言模型引入可擴展實施。PyTorch/XLA 2.3中的開源代碼支持將透過自動分片和異步檢查點等功能來改善分布式訓練的可擴展性。
與Hugging Face合作,Google Cloud的Optimum-TPU使客戶能在Google的TPU上優化AI模型的訓練和服務。此外,Google將提供NVIDIA NIM推斷微服務,為開發者提供靈活的AI訓練和部署選擇。
為了簡化使用,Google Cloud推出了動態工作負載調度器,允許客戶預定GPU 14天,優化AI工作負載的成本。
這些更新展示了Google的研究和創新解決方案所帶來的實際商業益處,創造出一個集成、高效且可擴展的AI訓練和推斷環境。
至於AI超級電腦的定價信息,目前尚無具體披露。觀察這個平台如何與微軟Azure和AWS競爭企業AI開發,以及Google是否能夠持續致力於改善和全力支持AI超級電腦,將至關重要。