谷歌云运行集成英伟达GPU，实现更强大的无服务器AI推理

Home AI News CN 谷歌云运行集成英伟达GPU，实现更强大的无服务器AI推理

探索无服务器架构下的人工智能成本与收益

在运行人工智能（AI）应用时，GPU推理是最重要的开支之一。传统上，组织在处理AI推理时依赖于持续的云实例或本地硬件。然而，谷歌云近期预览了一种具有变革性的解决方案：将Nvidia L4 GPU与其Cloud Run无服务器平台整合，这使得组织能够实现无服务器推理。

无服务器推理的优势

无服务器架构的主要优势在于其成本效益；服务仅在需要时运行，用户只需为实际使用支付费用。与传统的持续运行的云实例不同，无服务器GPU仅在特定请求时激活。无服务器推理支持Nvidia NIM和多种框架，包括VLLM、PyTorch和Ollama。目前，Nvidia L4 GPU的支持备受期待。

谷歌云无服务器产品经理Sagar Randive表示：“随着客户越来越多地采用AI，他们希望在熟悉的平台上部署AI工作负载。Cloud Run的高效性和灵活性至关重要，并且用户希望获得GPU支持。”

向无服务器AI环境的转变

谷歌的Cloud Run是一种完全托管的无服务器平台，因其容器部署和管理的简便性而受到开发人员的青睐。随着AI工作负载的不断增长，特别是需要实时处理的工作负载，对增强计算资源的需求愈发明显。

GPU支持的加入为Cloud Run的开发人员打开了多种可能性，包括：

- 使用轻量级模型（如Gemma 2B/7B或Llama 3 (8B)）进行实时推理，促进响应迅速的聊天机器人和动态文档摘要工具的开发。

- 定制微调的生成AI模型，实现面向特定品牌的可扩展图像生成应用。

- 加速计算密集型任务，如图像识别、视频转码和3D渲染，这些任务在闲置时可以缩减到零。

无服务器AI推理的性能考虑

无服务器架构的一个常见担忧是性能，尤其是冷启动时间。谷歌云通过提供令人印象深刻的指标来应对这些问题：包括Gemma 2B、Gemma 2 9B、Llama 2 7B/13B和Llama 3.1 8B等多个模型的冷启动时间在11到35秒之间。

每个Cloud Run实例可以配备一个Nvidia L4 GPU，提供高达24GB的vRAM，足以进行大多数AI推理任务。谷歌云力求保持模型的不依赖性，尽管他们建议使用参数少于130亿的模型以获得最佳性能。

无服务器AI推理的成本效益

无服务器模型的一个显著优势是其更好的硬件利用率，这可以转化为成本节省。然而，无服务器AI推理是否比传统的长期运行服务器更具成本优势，取决于具体应用和预期流量模式。

Randive解释道：“这很复杂。我们将更新我们的定价计算器，以反映Cloud Run的新GPU定价，以便客户比较不同平台的总运营成本。”

通过适应这一新兴的无服务器政策，组织可以在有效控制成本的同时，优化AI部署战略。

Midjourney推出全用户网站：立即获取25次免费AI图像生成机会！

304.5K

Browse AI是一款易于使用的网络自动化工具，专为数据抓取和监控而设计。通过 Browse AI，用户能够轻松收集和分析网络数据，提升工作效率。

数据提取网络爬取工具

45.1K

AI视频创作平台，专注于轻松制作引人入胜的视频内容。

AI视频创作 AI 相片和图像生成器

325.4K

探索AI驱动的音频创作平台，开启您的创作之旅。该平台利用先进的人工智能技术，帮助您轻松制作、编辑和优化音频内容，无论是播客、音乐还是其他多媒体项目。这不仅提升了创作效率，还有助于激发灵感，帮助您实现高质量的声音作品。加入我们，成为音频创作的先锋！

人工智能 AI音频增强器

71.4K

Levity是一个无代码平台，专为AI自动化设计，旨在帮助用户轻松自动化任务，而无需编写任何代码。无论您是企业主还是普通用户，Levity都使复杂的自动化变得简单且高效。

人工智能自动化 AI 邮件助手

Find AI tools in YBX