释放谷歌DataGemma AI的潜力：您的终极统计分析工具

Home AI News CN 释放谷歌DataGemma AI的潜力：您的终极统计分析工具

谷歌正在拓展其人工智能模型系列，以应对该领域的关键挑战。今天，该公司推出了DataGemma，这是一套开源的、经过指令调优的模型，旨在减少大型语言模型（LLMs）在统计查询中产生的不准确信息。

这些新模型现已在Hugging Face上提供，供研究和学术使用。它们在现有Gemma系列的基础上扩展，利用谷歌数据公共平台提供的海量实际数据。该公开平台拥有一个包含超过2400亿个数据点的开放知识图谱，这些数据来源于各个领域的可信机构，包括经济、科学和健康等。

解决事实幻觉问题

LLMs已彻底改变了技术应用，从代码生成到客户支持，并优化了企业资源利用率。尽管取得了显著进展，但与数字和统计数据相关的幻觉问题依然存在。谷歌的研究人员指出，这种现象的产生与LLM输出的概率性质以及训练数据中的事实覆盖不足有关。传统的基础技术在面对公共数据中多样的模式和格式时，难以进行准确解读，因为需要大量上下文信息。

为了弥补这些不足，研究人员将Data Commons这一公共统计数据最大存储库与Gemma语言模型系列结合，创造了DataGemma。

创新方法提升准确性

DataGemma采用两种不同的方法来改善事实准确性：

1. 检索交错生成（RIG）：这种方法通过将LLM的原始输出与Data Commons中的相关统计数据进行比较，从而增强事实准确性。经过优化的LLM生成描述性自然语言查询，并将其转换为结构化数据查询，以检索统计相关的答案并提供引用。

2. 检索增强生成（RAG）：该方法通过利用原始统计问题来提取相关变量，形成针对Data Commons的自然语言查询，从而增强模型。提取的数据与原始问题相结合，用于激发长上下文LLM（如Gemini 1.5 Pro）进行精准答案生成。

测试中展现出有希望的结果

在涉及101个查询的初步测试中，经过RIG调优的DataGemma模型的事实准确性提高了5-17%，达到了大约58%的准确率。虽然RAG的结果略低，但仍优于基线模型。

DataGemma成功利用Data Commons中的统计响应回答了24-29%的查询，保持了99%的数值准确率。然而，它在从数字中提取准确推理方面的表现时有挑战，成功率在6-20%之间。

RIG和RAG技术在增强统计查询的模型准确性方面表现出色，尤其在研究和决策上下文中。RIG提供较快的响应，而RAG则依赖于信息的可用性和大上下文处理能力。

谷歌旨在通过公开发布带有RIG和RAG功能的DataGemma，推动这一研究的进展。公司表示：“我们的研究仍在继续，我们致力于在扩大这项工作时不断改进这些方法，确保进行严格测试，并通过分阶段的有限访问将这一增强功能集成到Gemma和Gemini模型中。”

解读OpenAI新发布的o1-Preview和o1-Mini模型：开发者必知的关键要点

别再想GPT-5了！OpenAI推出全新AI模型系列o1，拥有博士级表现

Most people like

ImgGen AI

335.4K

探索免费的 AI 图像生成和增强工具，让您的创意得到充分发挥。这些工具利用先进的人工智能技术，轻松创建和提升您的图像，帮助您在艺术和设计项目中实现理想效果。无论您是专业人士还是爱好者，这些工具都将为您提供无限的可能性。

AI 图像生成器文字转图片工具

ChatGPT

3.1B

吸引眼球的人工智能对话系统与任务自动化解决方案。

人工智能 AI聊天机器人

FineShare

994K

FineShare致力于提供创新解决方案，例如FineCam和FineVoice，旨在促进更高效的沟通与连接。

视频录制其他

SCA Prep AI Tutor

5.6K

准备医学考试是每位医学生迈向职业生涯的重要一步。在这个过程中，AI导师的支持能够显著提升学习效果。借助先进的人工智能技术，AI导师为学生提供个性化的学习计划、关键知识点解析和模拟考试等多项资源，帮助学生更高效地掌握医学知识，增强临床技能。无论是基础医学科目还是临床知识，AI导师都能为学生提供针对性的指导，助力他们在医学考试中取得优异成绩。

医学教育大型语言模型（LLMs）

Find AI tools in YBX