探索无服务器架构下的人工智能成本与收益
在运行人工智能(AI)应用时,GPU推理是最重要的开支之一。传统上,组织在处理AI推理时依赖于持续的云实例或本地硬件。然而,谷歌云近期预览了一种具有变革性的解决方案:将Nvidia L4 GPU与其Cloud Run无服务器平台整合,这使得组织能够实现无服务器推理。
无服务器推理的优势
无服务器架构的主要优势在于其成本效益;服务仅在需要时运行,用户只需为实际使用支付费用。与传统的持续运行的云实例不同,无服务器GPU仅在特定请求时激活。无服务器推理支持Nvidia NIM和多种框架,包括VLLM、PyTorch和Ollama。目前,Nvidia L4 GPU的支持备受期待。
谷歌云无服务器产品经理Sagar Randive表示:“随着客户越来越多地采用AI,他们希望在熟悉的平台上部署AI工作负载。Cloud Run的高效性和灵活性至关重要,并且用户希望获得GPU支持。”
向无服务器AI环境的转变
谷歌的Cloud Run是一种完全托管的无服务器平台,因其容器部署和管理的简便性而受到开发人员的青睐。随着AI工作负载的不断增长,特别是需要实时处理的工作负载,对增强计算资源的需求愈发明显。
GPU支持的加入为Cloud Run的开发人员打开了多种可能性,包括:
- 使用轻量级模型(如Gemma 2B/7B或Llama 3 (8B))进行实时推理,促进响应迅速的聊天机器人和动态文档摘要工具的开发。
- 定制微调的生成AI模型,实现面向特定品牌的可扩展图像生成应用。
- 加速计算密集型任务,如图像识别、视频转码和3D渲染,这些任务在闲置时可以缩减到零。
无服务器AI推理的性能考虑
无服务器架构的一个常见担忧是性能,尤其是冷启动时间。谷歌云通过提供令人印象深刻的指标来应对这些问题:包括Gemma 2B、Gemma 2 9B、Llama 2 7B/13B和Llama 3.1 8B等多个模型的冷启动时间在11到35秒之间。
每个Cloud Run实例可以配备一个Nvidia L4 GPU,提供高达24GB的vRAM,足以进行大多数AI推理任务。谷歌云力求保持模型的不依赖性,尽管他们建议使用参数少于130亿的模型以获得最佳性能。
无服务器AI推理的成本效益
无服务器模型的一个显著优势是其更好的硬件利用率,这可以转化为成本节省。然而,无服务器AI推理是否比传统的长期运行服务器更具成本优势,取决于具体应用和预期流量模式。
Randive解释道:“这很复杂。我们将更新我们的定价计算器,以反映Cloud Run的新GPU定价,以便客户比较不同平台的总运营成本。”
通过适应这一新兴的无服务器政策,组织可以在有效控制成本的同时,优化AI部署战略。