GoogleのDataGemma AIを活用する: あなたの究極の統計ウィザード

Home AIニュース GoogleのDataGemma AIを活用する: あなたの究極の統計ウィザード

Googleは、重要な課題に取り組むためにAIモデルのラインアップを拡充しています。今日、同社は「DataGemma」と呼ばれる、新しいオープンソースの指示調整済みモデル群を発表しました。これらは、大規模言語モデル（LLM）が生成する不正確な応答、いわゆる「幻覚」を減少させることを目的とし、特に統計的な質問に焦点を当てています。

DataGemmaは、研究や学術目的でHugging Faceで利用可能です。これらの新しいモデルは、GoogleのData Commonsプラットフォームから得られた現実のデータを活用し、既存のGemmaファミリーを拡充するものです。この公的プラットフォームには、経済、科学、健康などのさまざまな分野から集められた2400億以上のデータポイントを含むオープン知識グラフがあります。

事実の幻覚への取り組み

LLMは、コーディング生成からカスタマーサポートまで、さまざまなアプリケーションを支え、企業のリソース利用を最適化するなど、技术を革新しました。しかし、特に数値や統計データに関連する幻覚の問題は依然として残っています。

Googleの研究者によれば、この現象に寄与する要因には、LLMの出力の確率的性質やトレーニングデータの事実のカバレッジの不足が含まれます。従来の検証手法は、公共データの多様なスキーマや形式のため、統計的な質問に対して正確な解釈を行うためにかなりの文脈が必要でした。

このギャップを埋めるために、研究者たちは、正規化された公共統計データの最大のリポジトリの1つであるData CommonsとGemmaファミリーの言語モデルを統合し、DataGemmaを実現しました。

精度向上のための革新的アプローチ

DataGemmaは、事実の正確性を向上させるために2つの異なる手法を採用しています。

1. Retrieval Interleaved Generation (RIG): このアプローチは、LLMの元の出力をData Commonsの関連統計と比較することで、事実の正確性を統合します。精緻化されたLLMは、記述的な自然言語の質問を生成し、それを構造化されたデータクエリに変換して、適切な統計的回答を引き出します。

2. Retrieval-Augmented Generation (RAG): この手法は、元の統計的質問を利用して関連変数を抽出し、Data Commonsに向けた自然言語のクエリを形成することでモデルを強化します。抽出されたデータは、元の質問と組み合わされ、長文コンテキストを持つLLM（ここではGemini 1.5 Pro）を促して正確な回答を生成します。

テストでの有望な結果

101件のクエリを含む初期テストでは、RIGによって微調整されたDataGemmaモデルは、基準からの事実の正確性を5〜17%向上させ、約58%の正確性を達成しました。RAGはやや劣った結果を出しましたが、それでも基準モデルを上回りました。

DataGemmaは、Data Commonsからの統計的応答を用いて24〜29%のクエリを成功裏に回答し、数値の正確性は99%を維持しました。しかし、6〜20%の時間では数値から正確な推論を引き出すのが難しいとされました。

両方の手法、RIGとRAGは、特に研究や意思決定の文脈において統計的クエリのモデル精度を向上させることに効果的であることが示されています。RIGはスピードを提供し、RAGは広範なデータを提供しますが、情報の利用可能性や大規模コンテキスト処理に依存します。

Googleは、DataGemmaをRIGおよびRAGと共に公開し、これらの手法に関する研究を進めることを目指しています。同社は、「私たちの研究は続いており、この作業をスケールアップしながら検証を徹底し、強化された機能をGemmaおよびGeminiモデルに段階的に統合することを約束します」と述べています。

OpenAIの新しいo1-Previewおよびo1-Miniモデルの理解：開発者のための重要な洞察

GPT-5を忘れろ！OpenAIが新しいAIモデル「o1」を発表、博士レベルの性能を誇る

Most people like

SCA Prep AI Tutor

5.6K

あなたの可能性を引き出し、最新のAI技術で学習戦略を強化しましょう。AIチューターは、あなたのニーズに合わせたパーソナライズされた指導、効率的な学習プラン、特定の練習問題を提供します。医療資格試験の準備をしている場合でも、複雑な科目の理解を深める場合でも、AIチューターを学習ルーチンに取り入れることで、自信とパフォーマンスを大幅に向上させることができます。今日から、医療試験に向けたより賢く、効果的な準備法に飛び込みましょう！

医療教育 Large Language Models (LLMs)

AISEO - Your AI writer for SEO

451K

AISEOは、最適化されたコンテンツを迅速に作成する強力なライティングアシスタントであり、高度な言い換えツールを搭載しています。ブログ記事の作成やウェブコピーの改善など、AISEOはライティングプロセスを効率化し、短時間で高品質な成果を達成することをサポートします。

AIライティングアシスタント AI Content Generator

Vidnoz AI Headshot Generator

10.3M

手軽に魅力的なプロフェッショナルAIヘッドショットを作成できます。

AIヘッドショットジェネレーター AI Avatar Generator

DeepAI

12.5M

創造的な心のためのAIツールの可能性を引き出す。

AI AI Content Generator

Find AI tools in YBX