2023年3月31日、最近の報告によれば、AIチャットボット技術の進歩にもかかわらず、依然として一般的な問題が存在しています。それは、これらのシステムが事実と異なる回答を提供することです。この現象は「幻覚」と呼ばれ、AIが信頼性のある情報に見えるが実際には誤ったデータを生成することを指します。
この課題に対処するために、Google DeepMindとスタンフォード大学の研究者たちは「検索強化事実評価ツール(SAFE)」を開発しました。このツールは、大規模言語モデルを活用して、チャットボットが生成した長文の応答をファクトチェックします。この研究の成果や実験コード、データセットは公開されています。
SAFEシステムは、AI生成の応答の正確性と信頼性を検証するために、以下の4つのステップで進行します。まず、応答を検証が必要な個別の主張に分解します。次に、必要に応じてこれらの主張を修正します。その後、主張をGoogle検索結果と比較し、最後に各事実の元の問いとの関連性を評価します。
システムの効果を評価するため、研究者たちは「LongFact」という約16,000の事実を含むデータセットを作成し、Claude、Gemini、GPT、PaLM-2を含む13の大規模言語モデルに対してSAFEをテストしました。その結果、100の物議を醸す事実を分析した際、SAFEは最終レビュー後に76%の精度を達成しました。また、このフレームワークは手動での注釈よりも20倍以上のコスト効率を示しています。この進展は、AIチャットボットの信頼性向上に向けた重要な一歩となります。