サンフランシスコに本拠を置くGalileoが発表した新しい幻覚指数によると、OpenAIのGPT-4モデルはさまざまなタスクにおいて最も少ない幻覚を示しています。この指数は、オープンソースおよびクローズドソースのほぼ1ダースの大規模言語モデル(LLM)を評価し、MetaのLlamaSiriーズなどが含まれています。
結果は、すべてのLLMが異なるタスクにおいてさまざまな挙動を示す一方で、OpenAIのモデルが複数のシナリオで一貫して他のモデルより優れていることを示しています。この指数は、重要な分野、特にヘルスケアにおけるLLMの広範な採用を妨げる大きな障壁である幻覚問題の克服を支援することを目的としています。
LLM幻覚の追跡:難題
生成AIやLLMの導入に対して企業の関心は高まっていますが、パフォーマンスのギャップがしばしば発生します。LLMは事実確認に基づかず関連用語やコンセプトに依存して応答を生成するため、完全に事実に基づいた応答を行わないことがあります。「生成AI製品の展開には多くの要因が影響しています。たとえば、ツールが単純なプロンプトからストーリーを生成するために設計されているのか、独自の情報に基づいて顧客の問い合わせに応答するチャットボットなのか」とGalileoの共同創業者兼CTOのアティンドリヨ・サニャルは説明しています。
現在、企業はモデルのパフォーマンスを評価するためにベンチマークを利用していますが、幻覚の発生を包括的に測定する方法は不足していました。この課題に取り組むため、サニャルとそのチームは、11の著名なオープンソースおよびクローズドソースのLLMを、情報検索を伴わない質問応答、情報検索を伴う質問応答、長文生成という3つの共通タスクで評価しました。
「私たちは、各モデルの能力を効果的に挑戦するために厳選された7つの人気データセットを選びました」とサニャルは述べました。例えば、情報検索なしの質問応答カテゴリーでは、TruthfulQAやTriviaQAといったデータセットを使用して、モデルが一般的な問い合わせに対してどれだけ適応できるかを測定しました。
Galileoのチームはデータセットのサイズを縮小し、正確性評価のための基準を設定するために注釈を加えました。「これらのメトリックにより、エンジニアやデータサイエンティストは幻覚を効果的に特定できます。一致性メトリックは論理的な誤りや推論ミスにフォーカスし、情報検索なしのQ&Aと長文生成を評価し、文脈遵守は提供された文書内の推論を評価します」とサニャルは詳述しました。
パフォーマンス概要
情報検索なしの質問応答のカテゴリーでは、OpenAIのGPTモデルが際立っており、GPT-4-0613が正確性スコア0.77を達成しました。次いで、GPT-3.5 Turbo-1106が0.74、GPT-3.5-Turbo-Instructが0.70、GPT-3.5-Turbo-0613も0.70というスコアを記録しました。MetaのLlama-2-70bが0.65で最も近い競合となり、Llama-2-7b-chatやMosaic MLのMPT-7b-instructがそれぞれ0.52と0.40と低いスコアを示しました。
情報検索タスクでは、再びGPT-4-0613がトップパフォーマーとして文脈遵守スコア0.76を達成し、GPT-3.5-Turbo-0613が0.75、-1106が0.74と続きました。Hugging FaceのZephyr-7bは0.71で、MetaのLlama-2-70b(スコア=0.68)を上回りました。UAEのFalcon-40bとMosaic MLのMPT-7bはそれぞれ0.60と0.58のスコアで改善の余地があります。
長文生成タスクでは、GPT-4-0613が0.83、Llama-2-70bが0.82を記録し、幻覚がほとんどないことを示しました。GPT-3.5-Turbo-1106もLlamaと同じスコアをマッチし、0613バージョンは0.81で続きました。MPT-7bは0.53でした。
パフォーマンスとコストのバランス
OpenAIのGPT-4はすべてのタスクで優れたパフォーマンスを維持していますが、そのAPI価格はコストを大幅に引き上げる可能性があります。Galileoは、比較可能なパフォーマンスを安価に提供できるGPT-3.5-Turboモデルを検討するようチームに提案しています。また、Llama-2-70bのようなオープンソースモデルは、パフォーマンスとコストのバランスを提供できます。
この指数は進化し、新しいモデルが登場し、既存のモデルが改善されることを認識することが重要です。Galileoは、各タスクにおける幻覚の傾向について、モデルの正確なランキングを提供するために指数を四半期ごとに更新する予定です。「私たちの目標は、チームが幻覚に対処するためのしっかりとした基盤を提供することです。Hallucination Indexが決定的なものとして扱われないことを期待していますが、生成AIの取り組みのための包括的な出発点として機能することを望んでいます」とサニャルは付け加えました。