Nvidia即將顯著提升生成式AI大型語言模型(LLM)的部署,透過一項開創性的快速推理方法。
在今天的Nvidia GTC大會上,這家科技巨頭介紹了Nvidia推理微服務(NIM),這是一種整合優化推理引擎、行業標準API和AI模型支持的軟體技術,並將其打包進容器中以便於無縫部署。NIM不僅提供現成模型,還使組織能夠整合專有數據,加速檢索增強生成(RAG)的部署。
NIM的推出標誌著生成式AI部署的一個重要進展,構成了Nvidia下一代推理策略的基礎,將影響行業內幾乎所有模型開發者和數據平台。Nvidia已與主要軟體供應商合作,包括SAP、Adobe、Cadence和CrowdStrike,以及各種數據平台提供商,如BOX、Databricks和Snowflake,以支持NIM。
NIM是NVIDIA企業AI軟體套件的一部分,今天在GTC上以5.0版本發布。
Nvidia企業計算副總裁Manuvir Das表示:「Nvidia NIM是開發者的首選軟體包和運行時,讓他們專注於企業應用程序。」
Nvidia NIM是什麼?
NIM的核心是一個充滿微服務的容器。這個容器可以託管各種模型,無論是開放的還是專有的,並可在任何Nvidia GPU上運行,無論是在雲端還是本地機器上。NIM可以部署在支持容器技術的任意地方,包括雲端的Kubernetes、Linux伺服器或無伺服器的功能即服務模型。Nvidia計劃在其新網站ai.nvidia.com上提供無伺服器功能的方式,讓開發者在部署之前即能開始使用NIM。
值得注意的是,NIM並不取代現有的Nvidia模型交付方法。相反,它為Nvidia GPU提供了一個高度優化的模型,以及增強推理所需的基本技術。
在新聞簡報中,生成式AI軟體產品管理副總裁Kari Briski重申了Nvidia作為平台公司的承諾,並強調支持推理的工具,如TensorRT和Triton推理伺服器,依然至關重要。
Briski解釋道:「將這些組件整合到生產環境中以大規模運行生成式AI需要顯著的專業知識,這就是我們為何將它們打包在一起的原因。」
NIM提升企業的RAG能力
NIM的一個關鍵應用在於促進RAG部署模型。
Das指出:「幾乎每位與我們合作的客戶都已實施了多個RAG。挑戰在於從原型過渡到在生產中提供實際的商業價值。」
Nvidia及業界領先的數據供應商預計,NIM將提供可行的解決方案。向量數據庫的能力對於啟用RAG至關重要,幾個供應商,包括Apache Lucene、Datastax和Milvus,都在集成NIM的支持。
透過在NIM部署中整合NVIDIA NeMo Retriever微服務,RAG方法將進一步增強。NeMo Retriever於2023年11月發布,旨在優化RAG應用的數據檢索。
Briski補充道:「當你整合一個加速且經過高品質數據集訓練的檢索器時,其影響是顯著的。」