谷歌云运行集成英伟达GPU，实现更强大的无服务器AI推理

Home AI News CN 谷歌云运行集成英伟达GPU，实现更强大的无服务器AI推理

探索无服务器架构下的人工智能成本与收益

在运行人工智能（AI）应用时，GPU推理是最重要的开支之一。传统上，组织在处理AI推理时依赖于持续的云实例或本地硬件。然而，谷歌云近期预览了一种具有变革性的解决方案：将Nvidia L4 GPU与其Cloud Run无服务器平台整合，这使得组织能够实现无服务器推理。

无服务器推理的优势

无服务器架构的主要优势在于其成本效益；服务仅在需要时运行，用户只需为实际使用支付费用。与传统的持续运行的云实例不同，无服务器GPU仅在特定请求时激活。无服务器推理支持Nvidia NIM和多种框架，包括VLLM、PyTorch和Ollama。目前，Nvidia L4 GPU的支持备受期待。

谷歌云无服务器产品经理Sagar Randive表示：“随着客户越来越多地采用AI，他们希望在熟悉的平台上部署AI工作负载。Cloud Run的高效性和灵活性至关重要，并且用户希望获得GPU支持。”

向无服务器AI环境的转变

谷歌的Cloud Run是一种完全托管的无服务器平台，因其容器部署和管理的简便性而受到开发人员的青睐。随着AI工作负载的不断增长，特别是需要实时处理的工作负载，对增强计算资源的需求愈发明显。

GPU支持的加入为Cloud Run的开发人员打开了多种可能性，包括：

- 使用轻量级模型（如Gemma 2B/7B或Llama 3 (8B)）进行实时推理，促进响应迅速的聊天机器人和动态文档摘要工具的开发。

- 定制微调的生成AI模型，实现面向特定品牌的可扩展图像生成应用。

- 加速计算密集型任务，如图像识别、视频转码和3D渲染，这些任务在闲置时可以缩减到零。

无服务器AI推理的性能考虑

无服务器架构的一个常见担忧是性能，尤其是冷启动时间。谷歌云通过提供令人印象深刻的指标来应对这些问题：包括Gemma 2B、Gemma 2 9B、Llama 2 7B/13B和Llama 3.1 8B等多个模型的冷启动时间在11到35秒之间。

每个Cloud Run实例可以配备一个Nvidia L4 GPU，提供高达24GB的vRAM，足以进行大多数AI推理任务。谷歌云力求保持模型的不依赖性，尽管他们建议使用参数少于130亿的模型以获得最佳性能。

无服务器AI推理的成本效益

无服务器模型的一个显著优势是其更好的硬件利用率，这可以转化为成本节省。然而，无服务器AI推理是否比传统的长期运行服务器更具成本优势，取决于具体应用和预期流量模式。

Randive解释道：“这很复杂。我们将更新我们的定价计算器，以反映Cloud Run的新GPU定价，以便客户比较不同平台的总运营成本。”

通过适应这一新兴的无服务器政策，组织可以在有效控制成本的同时，优化AI部署战略。

Midjourney推出全用户网站：立即获取25次免费AI图像生成机会！

6.1K

基于人工智能的语音模拟技术在职业技能培训中的应用。

人工智能培训解决方案人工智能面试助手

111.6K

通过Success.ai，实现人工智能驱动的业务增长与成功！

人工智能驱动 AI工具导航

44.9K

多平台社交媒体定时发布工具，助您轻松管理和优化在线内容，提升品牌曝光率。这些工具允许用户在多个社交媒体平台上同时安排和发布内容，从而节省时间并提高工作效率。无论您是企业主、营销专家还是内容创作者，选择合适的定时发布工具将帮助您更好地连接目标受众，实现更高的互动率和转化率。

社交媒体排程工具 AI社交媒体助手

30.5K

SEO人工智能洞察与谷歌内容排名的关系在数字营销的快速发展中，搜索引擎优化（SEO）成为了在线成功的关键要素。特别是人工智能（AI）的应用，为我们提供了深刻的洞察力和优化策略。这篇文章将探讨如何利用AI技术提升内容的质量，从而提高在谷歌搜索引擎中的排名，帮助您在激烈的竞争中脱颖而出。

搜索引擎优化 AI 内容生成器

Find AI tools in YBX