什么是NIM?探索Nvidia推理微服务如何彻底改变行业AI模型部署

Nvidia 正在通过一种创新的方法显著提升生成式人工智能大型语言模型(LLM)的推理部署能力。

在今天的 Nvidia GTC 会议上,这家科技巨头推出了 Nvidia 推理微服务(NIM),这是一种将优化的推理引擎、行业标准 API 和 AI 模型支持整合到容器中的软件技术,以实现无缝部署。NIM 不仅提供了预构建模型,还允许组织整合其专有数据,加速检索增强生成(RAG)的部署。

NIM 的推出标志着生成式人工智能部署的重要进展,是 Nvidia 下一代推理策略的基础,预计将影响行业内几乎所有模型开发者和数据平台。Nvidia 与主要软件供应商(如 SAP、Adobe、Cadence 和 CrowdStrike)及多家数据平台提供商(如 BOX、Databricks 和 Snowflake)合作,以支持 NIM。

NIM 是 NVIDIA 企业 AI 软件套件的一部分,今天在 GTC 上发布了 5.0 版本。Nvidia 企业计算副总裁 Manuvir Das 表示:“Nvidia NIM 是开发者首选的软件包和运行时,能够让他们专注于企业应用。”

什么是 Nvidia NIM?

NIM 本质上是一个包含微服务的容器。这个容器可以托管各种模型——无论是开放的还是专有的——可在任何 Nvidia GPU 上运行,无论是在云端还是本地机器上。NIM 可以在支持容器技术的地方进行部署,包括云中的 Kubernetes、Linux 服务器或无服务器计算模型。Nvidia 计划在其新的 ai.nvidia.com 网站上提供无服务器功能,使开发者能够在部署之前开始使用 NIM。

重要的是,NIM 并不取代现有的 Nvidia 模型交付方式。相反,它为 Nvidia GPU 提供了高度优化的模型以及增强推理所需的关键技术。

在新闻发布会上,生成式 AI 软件产品管理副总裁 Kari Briski 重申了 Nvidia 作为平台公司的承诺。她强调,支持推理的工具(如 TensorRT 和 Triton 推理服务器)依然至关重要。“将这些组件整合到生产环境中以规模化运行生成式 AI 需要丰富的专业知识,这就是我们将它们打包在一起的原因,” Briski 说。

提升企业 RAG 能力的 NIM

NIM 的一个关键应用是在促进 RAG 部署模型方面。“几乎每个与我们接触的客户都实施了多个 RAG,”Das 指出。“挑战在于从原型转向在生产环境中实现切实的商业价值。”

Nvidia 与领先的数据供应商共同预计,NIM 将提供一个可行的解决方案。向量数据库的能力对实现 RAG 至关重要,多个供应商(包括 Apache Lucene、Datastax 和 Milvus)正在整合对 NIM 的支持。

RAG 方法将通过在 NIM 部署中集成 NVIDIA NeMo Retriever 微服务进一步增强。NeMo Retriever 旨在优化 RAG 应用的数据检索,并于 2023 年 11 月首次发布。Briski 补充道:“当您集成一个加速并针对高质量数据集进行训练的检索器时,效果是显著的。”

Most people like

Find AI tools in YBX