法律研究におけるAIの課題: 法律AIツールの「幻覚」についての研究
近年、大規模言語モデル(LLMs)が情報処理を要する様々なタスクに活用されています。多くの企業が、法律研究のためのLLMと情報取得システムを活用した専門ツールを開発しています。しかし、スタンフォード大学の研究者による最近の調査によれば、これらのツールは供給業者の主張にもかかわらず、「幻覚」、つまり事実に基づかない出力を示す割合が依然としてかなり高いことが明らかになりました。
研究の概要
この画期的な研究は、「AI駆動の法律研究ツールの最初の事前登録された実証評価」であり、主要な法律研究プロバイダーのツールとOpenAIのGPT-4を200以上の精巧に作成された法律の質問に対して比較しています。調査結果によると、一般的なチャットボットと比較して幻覚の発生率は減少したものの、法律AIツールでは依然として17%から33%のケースで幻覚が見られました。このことは、深刻な問題を示唆しています。
法律における情報取得強化生成(RAG)の理解
多くの法律AIツールは、幻覚を軽減するために情報取得強化生成(RAG)技術を採用しています。標準のLLMとは異なり、RAGシステムは知識ベースから関連文書を取得し、モデルの応答に対して文脈を提供します。RAGは様々な分野で幻覚を減少させる金標準として機能しますが、法律の質問はしばしば明確な答えを欠いており、情報取得を複雑にしています。
研究者たちは、新規または法的に曖昧な質問に対して何を取得するかを判断することが問題になることを指摘しています。彼らは、事実に基づかない、あるいは文脈的に無関係な応答を「幻覚」と定義しています。法律における文書の関連性は単なるテキストの類似性を超えており、類似しているが無関係な文書を取得すると、システムの効果が損なわれる可能性があります。
法律研究のためのAIツールの評価
研究者は、実際の研究シナリオを反映した多様な法律質問を設計し、Lexis+ AI(LexisNexis)、Westlaw AI支援研究、Ask Practical Law AI(Thomson Reuters)の3つの著名なAI駆動の法律研究ツールをテストしました。これらのツールはRAGを利用しているものの、研究の結果、依然として多くの幻覚が確認されました。
この研究は、これらのシステムが基本的な法律理解に関するタスクで直面している難しさを浮き彫りにし、法律AIツールの閉鎖的な性質が法律専門家にとっての透明性を制限する懸念を引き起こしました。
法律研究におけるAIの進歩と限界
限界はあるものの、AI支援の法律研究は、特に出発点として利用する場合、従来のキーワード検索方法と比べて価値を示します。共著者のダニエル・E・ホによれば、RAGは一般的なAIと比較して法律における幻覚を減少させるものの、不適切な文書取得からのエラーが依然として発生することが強調されています。
透明性の重要性
ホ氏は、法律AIにおける透明性とベンチマークの必要性を強調しました。一般的なAI研究とは異なり、法律技術セクターは閉鎖的なアプローチを維持しており、技術情報や性能証拠がほとんど提供されていない状況です。この透明性の欠如は、これらのツールに依存する弁護士にとって危険を伴います。
調査に応じて、Westlawのプロダクトマネジメント責任者であるマイク・ダーンは、会社の徹底したテストと法律的な質問の複雑さに対するコミットメントを強調しました。彼は、研究の結果がAI支援の研究ではあまり経験されない質問を反映している可能性があると述べました。一方、LexisNexisは、どのAIツールも完璧を保証できないことを認め、法律家の判断を強化することに焦点を当てているとしました。LexisNexisの最高製品責任者であるジェフ・ファイファーは、研究者が使用した基準が幻覚率を十分に反映していないかもしれないと指摘し、彼らの継続的な改善を示しました。
今後、LexisNexisとスタンフォード大学は、法律研究におけるAIの適用に関するベンチマークや性能報告フレームワークを確立するために協議を進めており、法律専門家によりよくサービスを提供し、幻覚の発生を減少させることを目指しています。
結論
法律研究におけるAIは期待が持たれる一方で、幻覚の問題や透明性の必要性は業界が解決すべき重要な課題として残ります。