Nvidiaは、生成AIの大規模言語モデル(LLMs)の展開を大幅に向上させる革新的なアプローチを発表しました。今日のNvidia GTCイベントでは、最適化された推論エンジン、業界標準API、AIモデルのサポートをコンテナにまとめ、シームレスな展開を実現する「Nvidia Inference Microservices(NIM)」が紹介されました。NIMは、事前構築されたモデルを提供するだけでなく、企業独自のデータを取り入れることも可能にし、Retrieval Augmented Generation(RAG)の迅速な展開を加速します。
NIMの導入は、生成AIの展開における重要な進展を示しており、Nvidiaの次世代推論戦略の中核を成すものです。これにより、業界のほぼ全てのモデル開発者やデータプラットフォームに影響を与えるでしょう。NvidiaはSAP、Adobe、Cadence、CrowdStrikeを含む主要なソフトウェアベンダーや、BOX、Databricks、Snowflakeなどのデータプラットフォームプロバイダーと協力して、NIMをサポートしています。
NIMは、NVIDIA Enterprise AIソフトウェアスイートの一部であり、本日GTCにてバージョン5.0としてリリースされます。Nvidiaのエンタープライズコンピューティング担当VP、マヌヴィール・ダスは、「Nvidia NIMは、開発者がエンタープライズアプリケーションに集中できる主要なソフトウェアパッケージであり、ランタイムです」と述べています。
Nvidia NIMとは?
NIMは、マイクロサービスを含むコンテナであり、さまざまなモデル(オープンから独自のものまで)をホストでき、クラウドやローカルマシンのNvidia GPU上で動作可能です。NIMは、Kubernetesを用いたクラウド、Linuxサーバー、サーバーレスのFunction-as-a-Serviceモデルなど、コンテナ技術がサポートされる場所で展開できます。Nvidiaは、新たに開設したai.nvidia.comウェブサイトにて、サーバーレス機能のアプローチも提供し、開発者がNIMの使用を開始できるようにします。
NIMは既存のNvidiaモデル提供方法を置き換えるものではなく、Nvidia GPU用に高度に最適化されたモデルと、推論を強化するための重要な技術を提供します。プレスブリーフィングで、生成AIソフトウェア製品管理担当VPのカリ・ブリスキは、Nvidiaがプラットフォーム企業であることに対する同社のコミットメントを再確認しました。「生成AIを大規模に運用するために、これらのコンポーネントを生産環境に統合するには、相当な専門知識が必要です。そのため、私たちはそれらをまとめてパッケージ化しました」とブリスキは説明しました。
企業向けのRAG機能を強化するNIM
NIMの重要な応用は、RAG展開モデルを促進することにあります。ダスは、「私たちが関わったほぼ全てのクライアントは、複数のRAGを実装しています。課題は、プロトタイピングから実際のビジネス価値を生み出すことへの移行です」と述べています。Nvidiaは、大手データベンダーと連携し、NIMが実行可能なソリューションを提供すると期待しています。RAGを実現するためにはベクターデータベース機能が重要であり、Apache Lucene、Datastax、Milvusなどの企業がNIMサポートを統合しています。
RAGアプローチは、NIM展開内のNVIDIA NeMo Retrieverマイクロサービスとの統合を通じてさらに強化されます。2023年11月に発表されたNeMo Retrieverは、RAGアプリケーション向けのデータ取得を最適化するために設計されています。「高品質なデータセットで加速され、トレーニングされたリトリーバーを組み込むことで、結果は驚くべきものになります」とブリスキは付け加えました。