亚马逊云服务(AWS)为需要可靠计算资源的机器学习开发者推出了一项创新解决方案——亚马逊EC2容量块。这项服务允许用户专门为生成式人工智能和大型语言模型的训练与部署预留GPU计算能力,就像酒店预订系统一样,客户可以根据需求指定所需的GPU实例数量和使用时长。这样的方式确保机器学习项目可以顺利进行,避免计算力不足的问题。
借助这一新服务,企业能够高效地训练或微调其模型,进行实验,或在灾难恢复情况下按需使用计算资源。AWS的首席开发者倡导者Channy Yun指出:“当您需要保证计算能力来训练或微调机器学习模型、进行实验或应对未来的需求激增时,EC2容量块将为您提供支持。”
目前,该服务适用于亚马逊EC2 P5实例,这些实例由Nvidia H100 Tensor Core GPU提供支持。位于AWS美国东部地区的客户可以享受此服务。价格结构根据供需情况动态调整,用户可以灵活购买GPU实例块,租用时长从一天到14天,甚至在某些情况下可提前租用长达八周。
进入GPU租赁市场的这一举措反映了一个更广泛的趋势,各大公司正在寻求利用对高性能计算解决方案日益增长的需求。值得注意的是,NexGen Cloud计划推出“AI超级云”服务,以便开发者租用用于模型训练的资源。此外,Hugging Face今年早些时候推出了“训练集群即服务”解决方案,而美国政府则显著降低了其Perlmutter超级计算机的租赁价格。
在AI芯片生产的竞争格局中,Nvidia仍然处于领导地位。在第二季度,Nvidia单独发货了约900吨H100 GPU,而AMD、IBM和SambaNova等竞争对手正积极努力在这一快速发展的市场中争取份额。