最近のGoogleのDeepMindによる研究は、人工知能システムが大型言語モデルから生成された情報の正確性を評価する際に、人間のファクトチェック者を上回る性能を示すことができることを明らかにしました。この研究は、「大型言語モデルにおける長文の事実性」というタイトルでarXivに発表され、Search-Augmented Factuality Evaluator(SAFE)という新しい手法を紹介しています。SAFEは、大型言語モデルを用いて生成されたテキストを個々の事実に分解し、それぞれの主張の正確性をGoogle検索結果を利用して評価します。
SAFEの仕組み
SAFEは、長文の回答を特定の事実に細分化し、各事実を多段階の推論を通じて評価するプロセスを実施します。その中には、情報が関連するソースによって裏付けられているかを確認するためにGoogleで検索クエリを行うことが含まれます。
人間との比較
研究者たちは、SAFEを約16,000件の事実からなるデータセットを使用して人間のアノテーターと比較しました。結果、SAFEの評価は人間の評価と72%の一致率を示しました。100件の不一致のサンプルでは、SAFEの判断は76%の正確性を持ちました。「LLMエージェントは超人的な評価性能を達成できる」との主張に、一部の専門家は「超人」の定義に異議を唱えています。著名なAI研究者のゲイリー・マーカスは、「超人」とは「低賃金のクラウドワーカーよりも優れている」とする見解を示し、1985年のチェスソフトウェアが超人的能力を示すとする例えでその意見を強調しました。
マーカスは、超人的な性能を証明するには、SAFEを一般のクラウドワーカーではなく、専門的な人間のファクトチェック者と比較するべきだと主張しています。人間の評価者の資格や評価方法の詳細は、結果の解釈において重要です。
コスト削減とモデルのベンチマーキング
SAFEの主な利点の一つは、そのコスト効果です。研究者たちはAIシステムの使用が人間のファクトチェック者を雇う場合の約20倍の安価さであることを発見しました。言語モデルから生成される情報量が増加する中で、主張を検証するための手頃でスケーラブルなソリューションの必要性が高まっています。
DeepMindチームは、LongFactという新しいベンチマークを用いて、Gemini、GPT、Claude、PaLM-2の4つのファミリーからの13の主要言語モデルの事実的正確性を評価しました。結果は、一般的により大きなモデルは事実のエラーが少ないことを示しています。しかし、トップパフォーマンスのモデルでさえ、多くの不正確さを生成しており、誤解を招く情報を信頼する際には注意が必要です。SAFEのようなツールは、これらのリスクを軽減するのに役立つ可能性があります。
透明性と人間のベースラインの必要性
SAFEのコードとLongFactデータセットはGitHubで公開されているため、さらなる精査や開発が可能ですが、研究に使われた人間のベースラインに関する透明性がさらなる修正を必要としています。クラウドワーカーの資格やプロセスを理解することは、SAFEのパフォーマンスを文脈化する上で重要です。
技術企業が多様な用途のためにますます洗練された言語モデルを開発しようとする中で、その出力を自動的にファクトチェックする能力は重要になるかもしれません。SAFEのような革新は、AI生成情報における信頼と責任の確立に向けた重要な進展を示しています。
しかし、このような影響力のある技術の進展は透明に行われ、特定の組織を超えた多様なステークホルダーからの意見を取り入れることが必要です。本物の専門家とのベンチマークにおいて徹底的かつ透明性のある評価が重要であり、これによって自動ファクトチェックの効果を真に理解することが可能になります。