OpenAIのGPT-4は、文書要約における幻覚の抑制において、最近のVectaraによる評価でトップの大規模言語モデル(LLM)として浮上しました。同社は、幻覚評価モデルを用いて著名なLLMをベンチマークする包括的なリーダーボードをGitHubで発表しました。このモデルは、文書要約中にAIが不正確または創作された情報を生成する頻度を測定します。
GPT-4およびそのバリアントであるGPT-4 Turboは、97%の高い正確性とわずか3%の幻覚率を達成するという素晴らしい性能を示しました。次に来たのはGPT-3.5 Turboで、96.5%の正確性と3.5%の若干高い幻覚率を記録しました。
OpenAI以外の競合モデルの中では、Metaの70億パラメータを持つLlama 2が際立っています。これにより94.9%の正確性と5.1%の幻覚率を達成しています。一方、Googleのモデルはリーダーボードで低評価に終わりました。Google Palm 2は87.9%の正確性と12.1%の幻覚率を示し、チャット用に改良されたバージョンはさらに低く、72.8%の正確性と27.2%の最高幻覚率を記録しました。
注目すべきは、Google Palm 2 Chatが平均要約単語数で221単語を生成したのに対し、GPT-4は平均81単語の要約を提供したことです。
評価方法論
Vectaraの評価は、LLMの出力における幻覚を特定することを目指しており、オープンソースのデータセットを活用しました。同社は1,000の短文書を各モデルに対してテストし、それらの内容に基づいた要約を求めましたが、831の文書のみがすべてのモデルで要約されました。残りはコンテンツ制限のために除外されました。共有された文書について、Vectaraは全体の正確性と幻覚率を算出しました。
なお、テストされたコンテンツは不適切な内容を含んでいなかったものの、特定のトリガーワードの存在により一部のモデルからコンテンツ制限がかかる場合がありました。
幻覚課題への対応
幻覚の問題は、企業における生成AIの広範な採用への重要な障害となっています。Vectara製品責任者のシェーン・コネリーは、ブログで幻覚を効果的に定量化することの歴史的な難しさを強調しました。過去の試みはあまりに抽象的だったり、物議を醸す主題を含むことが多く、ビジネスへの実用的な適用を制限していました。
Vectaraによって作成された幻覚評価モデルはオープンソースであり、企業がリトリーバル・オーグメンテッド・ジェネレーション(RAG)フレームワーク内で自社の言語モデルの信頼性を評価するために使用できるようになっています。このモデルはHugging Faceを通じて入手可能で、ユーザーは独自の要件に応じてカスタマイズできます。
コネリーは、「私たちの目標は、企業が生成システムを自信を持って導入できるよう、徹底した定量分析に基づいた洞察を提供することです」と語っています。AIの出力をより明確に理解することで、企業は生成AI技術の微妙なニュアンスをよりよく把握できるようになります。