トロントを拠点とするAIスタートアップCohereは、意味検索および大規模言語モデル(LLM)アプリケーション向けに最適化された埋め込みモデルの最新バージョン「Embed V3」を発表しました。埋め込みモデルは、データを「埋め込み」と呼ばれる数値表現に変換し、企業アプリケーションにおけるLLMの利用が増加する中で注目を集めています。
Embed V3は、OpenAIのAdaや多くのオープンソースモデルと競合しており、優れたパフォーマンスとデータ圧縮の向上を目指しています。これにより、企業のLLMアプリケーションの運用コストを削減することができます。
埋め込みの役割とRAG
埋め込みは、情報検索を強化するための生成(RAG)など、さまざまなタスクに不可欠です。RAGは、開発者がマニュアル、チャット履歴、記事、もしくは元のトレーニングセットに含まれていない文書などから情報を引き出し、文脈をLLMに提供する重要なアプリケーションです。
RAGを活用するために、企業は文書の埋め込みを生成し、ベクターデータベースに保存します。ユーザーがモデルにクエリを送信すると、AIシステムはプロンプトの埋め込みを計算し、保存された埋め込みと比較して最も関連性の高い文書を取得し、プロンプトの文脈を強化します。
エンタープライズAIの課題克服
RAGは、リアルタイム情報が不足していることや、不正確なコンテンツを生成する傾向など、LLMのいくつかの制限を克服しますが、ユーザーのクエリに最も関連する文書を見つけることは依然として課題です。
過去の埋め込みモデルは、ノイズの多いデータセットにおいて、関連性のない文書が基本的なキーワードマッチングにより高くランクされることに悩まされてきました。たとえば、「COVID-19の症状」で検索した場合、古いモデルは曖昧にその用語に言及している文書を優先することがあります。
CohereのEmbed V3は、クエリに対して文書を正確にマッチさせることで優れた性能を発揮します。たとえば、「COVID-19の症状」については、「高熱」「持続する咳」「嗅覚または味覚の喪失」のような具体的要素を記載した文書が、一般的なCOVID-19に関する記述よりも高く評価されるのです。また、Cohereによると、Embed V3は埋め込み性能に関する標準ベンチマークでOpenAIのada-002を上回っています。さまざまなサイズで提供されており、多言語バージョンも含まれているため、英語クエリに関連する文書を複数の言語から取得することが可能です。
RAGを強化する高度な機能
Embed V3は、複雑なユースケース、特にマルチホップのRAGクエリにおいて卓越したパフォーマンスを示します。ユーザーのプロンプトに複数のクエリが含まれている場合でも、モデルは各クエリに関連する文書を効果的に特定・取得し、プロセスを効率化します。
この効率により、ベクターデータベースへの複数のクエリの必要性が減少します。さらに、CohereはAPIに統合された再ランキング機能を強化し、検索結果を意味的な関連性に基づいてより良く整理します。Cohereの広報担当者は、「再ランキングは複雑なクエリと文書に特に効果的で、従来の埋め込みモデルがそのシナリオで苦労することがあります。しかし、再ランキングが効果的であるためには、初期の文書セットが最も関連性の高い情報を正確に表している必要があります。SuperiorなモデルであるEmbed V3は、関連文書を見落とすことがありません。」と説明しました。
さらに、Embed V3ではベクターデータベースの運用コストを大幅に削減できます。このモデルの三段階のトレーニングプロセスには、専門的な圧縮を意識したトレーニング手法が含まれています。広報担当者は「ベクターデータベースの維持費用は、埋め込みの計算コストの10倍から100倍になることがあります。私たちの圧縮を意識したトレーニングにより、効果的なベクタ圧縮が可能になります。」と述べています。
Cohereのブログによると、この圧縮段階は、さまざまな圧縮方法との互換性を最適化し、99.99%もの検索品質を維持しながら、ベクターデータベースのコストを大幅に削減しています。