Googleは、重要な課題に取り組むためにAIモデルのラインアップを拡充しています。今日、同社は「DataGemma」と呼ばれる、新しいオープンソースの指示調整済みモデル群を発表しました。これらは、大規模言語モデル(LLM)が生成する不正確な応答、いわゆる「幻覚」を減少させることを目的とし、特に統計的な質問に焦点を当てています。
DataGemmaは、研究や学術目的でHugging Faceで利用可能です。これらの新しいモデルは、GoogleのData Commonsプラットフォームから得られた現実のデータを活用し、既存のGemmaファミリーを拡充するものです。この公的プラットフォームには、経済、科学、健康などのさまざまな分野から集められた2400億以上のデータポイントを含むオープン知識グラフがあります。
事実の幻覚への取り組み
LLMは、コーディング生成からカスタマーサポートまで、さまざまなアプリケーションを支え、企業のリソース利用を最適化するなど、技术を革新しました。しかし、特に数値や統計データに関連する幻覚の問題は依然として残っています。
Googleの研究者によれば、この現象に寄与する要因には、LLMの出力の確率的性質やトレーニングデータの事実のカバレッジの不足が含まれます。従来の検証手法は、公共データの多様なスキーマや形式のため、統計的な質問に対して正確な解釈を行うためにかなりの文脈が必要でした。
このギャップを埋めるために、研究者たちは、正規化された公共統計データの最大のリポジトリの1つであるData CommonsとGemmaファミリーの言語モデルを統合し、DataGemmaを実現しました。
精度向上のための革新的アプローチ
DataGemmaは、事実の正確性を向上させるために2つの異なる手法を採用しています。
1. Retrieval Interleaved Generation (RIG): このアプローチは、LLMの元の出力をData Commonsの関連統計と比較することで、事実の正確性を統合します。精緻化されたLLMは、記述的な自然言語の質問を生成し、それを構造化されたデータクエリに変換して、適切な統計的回答を引き出します。
2. Retrieval-Augmented Generation (RAG): この手法は、元の統計的質問を利用して関連変数を抽出し、Data Commonsに向けた自然言語のクエリを形成することでモデルを強化します。抽出されたデータは、元の質問と組み合わされ、長文コンテキストを持つLLM(ここではGemini 1.5 Pro)を促して正確な回答を生成します。
テストでの有望な結果
101件のクエリを含む初期テストでは、RIGによって微調整されたDataGemmaモデルは、基準からの事実の正確性を5〜17%向上させ、約58%の正確性を達成しました。RAGはやや劣った結果を出しましたが、それでも基準モデルを上回りました。
DataGemmaは、Data Commonsからの統計的応答を用いて24〜29%のクエリを成功裏に回答し、数値の正確性は99%を維持しました。しかし、6〜20%の時間では数値から正確な推論を引き出すのが難しいとされました。
両方の手法、RIGとRAGは、特に研究や意思決定の文脈において統計的クエリのモデル精度を向上させることに効果的であることが示されています。RIGはスピードを提供し、RAGは広範なデータを提供しますが、情報の利用可能性や大規模コンテキスト処理に依存します。
Googleは、DataGemmaをRIGおよびRAGと共に公開し、これらの手法に関する研究を進めることを目指しています。同社は、「私たちの研究は続いており、この作業をスケールアップしながら検証を徹底し、強化された機能をGemmaおよびGeminiモデルに段階的に統合することを約束します」と述べています。