Nvidia는 혁신적인 접근 방식을 통해 생성 AI 대형 언어 모델(LLM)의 배포를 크게 향상시킬 예정입니다. 오늘 Nvidia GTC 행사에서 이 기술 거인은 Nvidia Inference Microservices(NIM)를 발표했습니다. NIM은 최적화된 추론 엔진, 업계 표준 API, AI 모델 지원을 컨테이너에 패키징하여 원활한 배포를 가능하게 하는 소프트웨어 기술입니다. NIM은 사전 구축된 모델을 제공할 뿐만 아니라, 기업이 자체 데이터를 통합하고 검색 강화 생성(RAG)의 배포를 가속화할 수 있도록 지원합니다.
NIM의 도입은 생성 AI 배포에서 중요한 발전을 의미하며, Nvidia의 차세대 추론 전략의 기본이 됩니다. 이는 업계의 거의 모든 모델 개발자와 데이터 플랫폼에 영향을 미칠 것입니다. Nvidia는 SAP, Adobe, Cadence, CrowdStrike와 같은 주요 소프트웨어 공급업체 및 BOX, Databricks, Snowflake와 같은 다양한 데이터 플랫폼 제공업체와 협력하여 NIM을 지원하고 있습니다.
NIM은 오늘 GTC에서 버전 5.0으로 출시되는 NVIDIA Enterprise AI 소프트웨어 스위트의 일부입니다. "Nvidia NIM은 개발자가 기업 응용 프로그램에 집중할 수 있도록 하는 최고급 소프트웨어 패키지와 런타임입니다,"라고 Nvidia의 기업 컴퓨팅 부사장 Manuvir Das가 밝혔습니다.
Nvidia NIM이란 무엇인가요?
NIM은 마이크로서비스로 구성된 컨테이너입니다. 이 컨테이너는 클라우드나 로컬 머신에서 운영 가능한 다양한 모델(오픈 및 독점)을 호스트할 수 있습니다. NIM은 Kubernetes, 리눅스 서버, 서버리스 기능 서비스 모델 등 컨테이너 기술이 지원되는 곳 어디에서든 배포할 수 있습니다. Nvidia는 새로운 ai.nvidia.com 웹사이트를 통해 서버리스 기능 접근 방식을 제공할 계획이며, 개발자들이 배포 전 NIM을 실험해볼 수 있게 합니다.
중요하게도, NIM은 기존의 Nvidia 모델 배포 방법을 대체하지 않습니다. 오히려 Nvidia GPU에 대해 고도로 최적화된 모델과 추론 향상을 위한 필수 기술을 제공합니다.
언론 브리핑 중, 생성 AI 소프트웨어 제품 관리 부사장 Kari Briski는 Nvidia가 플랫폼 기업으로서의 약속을 재확인했습니다. 그녀는 TensorRT 및 Triton Inference Server와 같은 추론 지원 도구의 중요성을 강조했습니다. "생성 AI를 대규모로 운영하기 위해 이러한 구성 요소를 통합하는 데는 상당한 전문 지식이 필요하므로, 우리가 이들을 함께 패키징했습니다,"라고 Briski가 설명했습니다.
NIM이 기업의 RAG 기능을 향상시킵니다
NIM의 주요 응용 프로그램 중 하나는 RAG 배포 모델을 촉진하는 것입니다. "우리가 만나본 거의 모든 클라이언트가 여러 RAG를 구현했습니다,"라고 Das는 언급했습니다. "문제는 프로토타입에서 생산 환경에서 실질적인 비즈니스 가치를 제공하는 것으로 전환하는 것입니다."
Nvidia는 주요 데이터 공급업체와 함께 NIM이 실행 가능한 솔루션을 제공할 것으로 예상하고 있습니다. 벡터 데이터베이스 기능은 RAG를 가능하게 하는 데 중요하며, Apache Lucene, Datastax, Milvus와 같은 여러 공급업체가 NIM을 지원하도록 통합하고 있습니다.
RAG 접근 방식은 NIM 배포 내에서 NVIDIA NeMo Retriever 마이크로서비스 통합을 통해 더욱 향상될 것입니다. 2023년 11월에 발표된 NeMo Retriever는 RAG 애플리케이션을 위한 데이터 검색 최적화를 위해 설계되었습니다. "고품질 데이터셋에서 가속화되고 훈련된 리트리버를 통합할 때 그 영향은 상당합니다,"라고 Briski가 덧붙였습니다.