在2023年12月,谷歌推出了其“人工智能超计算机”,这是一种创新的超计算机架构,结合了性能优化的硬件、开放软件、领先的机器学习框架以及灵活的消费模式。该计划旨在提高谷歌云客户在人工智能训练、调优和服务过程中的效率和生产力,以与微软和亚马逊在企业市场的竞争中占据一席之地。
谷歌云客户可以虚拟访问这一人工智能超计算机,从而训练自己的AI模型和应用程序。值得注意的是,像Salesforce和Lightricks这样的客户,已经成功利用谷歌云的TPU v5p人工智能超计算机训练大型AI模型。
在2024年拉斯维加斯举行的谷歌云年会Google Cloud Next上,谷歌展示了其人工智能超计算机的重要升级,强调越来越多的高端客户正在使用该平台。
谷歌云人工智能超计算机的升级
首次重大升级是谷歌云的Tensor处理单元(TPU)v5p的推出,这是其最强大、可扩展且灵活的AI加速器。此外,谷歌正在增强其A3虚拟机(VM)系列,推出搭载NVIDIA H100 Tensor Core GPU的A3 Mega配置,计划于五月发布。A3 Mega虚拟机将使用每个包含800亿个晶体管的先进GPU。
另外,谷歌计划集成英伟达最新的Blackwell GPU,以提升高性能计算和AI工作负载的支持。这包括采用英伟达HGX B200和GB200 NVL72 GPU的虚拟机,专为处理要求严格的AI和数据分析任务而设计。液冷GB200 NVL72 GPU将提供实时大型语言模型(LLM)推理,并支持万亿参数模型的大规模训练。
尽管万亿参数AI模型仍处于开发阶段,如SambaNova和谷歌的Switch Transformer,英伟达和Cerebras等芯片制造商正争相开发满足这一不断增长的模型规模的硬件。
值得注意的是,谷歌云的客户Character.AI,这是一家估值超过10亿美元的聊天机器人公司,已经从当前的A3配置中获益。首席执行官Noam Shazeer强调,使用谷歌云的TPU和A3虚拟机,使得大型语言模型的训练和推理速度更快、效率更高。他指出,新的平台可能带来超过2倍的成本效益表现。
推出JetStream以提升AI性能
在软件方面,谷歌云推出了JetStream,这是一个针对大型语言模型优化的推理引擎。该工具提高了开放模型的每美元性能,并支持JAX和PyTorch/XLA等框架,提升效率并降低成本。
AI工作负载的存储解决方案升级
谷歌的存储解决方案也在不断改进。新引入的缓存功能将数据更靠近计算实例,加速AI训练,提高GPU和TPU的效率,并增加能源成本效益。值得一提的是,Hyperdisk ML是一项新的块存储服务,改善了AI推理和服务工作流,实现了最多12倍的模型加载速度提升。
其他升级包括Cloud Storage FUSE,训练吞吐量提高2.9倍,以及Parallelstore,缓存加速训练速度比传统数据加载器快3.9倍。Filestore系统则使GPU和TPU实现数据的同时访问,使训练时间最多减少56%。
合作与软件升级
谷歌还在促进新的合作关系,并为基于JAX的扩散和语言模型引入可扩展的实现。支持PyTorch/XLA 2.3的开源代码将通过自动分片和异步检查点等功能改善分布式训练的可扩展性。
与Hugging Face的合作下,谷歌云的Optimum-TPU使客户能够优化在谷歌TPU上的AI模型训练和服务。此外,谷歌将提供NVIDIA NIM推理微服务,为开发者提供灵活的AI训练和部署选择。
为了便于使用,谷歌云推出了一种动态工作负载调度器,允许客户按14天间隔预留GPU,以优化AI工作负载的成本。
这些更新体现了谷歌研究和创新解决方案带来的实际商业利益,构建了一个集成、高效且可扩展的AI训练和推理环境。
有关人工智能超计算机定价的细节尚未披露。观察这平台如何与微软Azure和AWS在企业AI开发方面竞争,以及谷歌是否能够持续致力于改进和广泛支持人工智能超计算机,将是至关重要的。