谷歌DeepMind推出“超人类”人工智能系统：革新事实核查，降低成本，提高准确性

Home AI News CN 谷歌DeepMind推出“超人类”人工智能系统：革新事实核查，降低成本，提高准确性

谷歌DeepMind最近的一项研究表明，人工智能系统在评估大型语言模型生成信息的准确性方面，优于人类事实核查员。这篇名为《大型语言模型中的长篇事实性》（“Long-form factuality in large language models”）的论文已在arXiv上发布，介绍了一种名为搜索增强事实性评估器（SAFE）的创新方法。该方法利用大型语言模型将生成的文本分解为独立事实，并通过利用谷歌搜索结果来评估每个主张的准确性。

SAFE的工作流程包括将长篇回答拆分为单独的事实，并通过多步骤推理来评估每个事实的准确性，具体做法是进行谷歌搜索，以验证信息是否有相关来源支持。

对“超人”表现的争论

研究人员将SAFE与人类注释员进行了比较，使用了大约16,000个事实的数据集。他们发现，SAFE的评估与人类评分的吻合度达到72%。在100个不一致的案例中，SAFE的判断正确率为76%。尽管论文声称“LLM代理可以实现超人级的评分表现”，但一些专家对此定义提出质疑。著名AI研究人员加里·马库斯在推特上表示，“超人级”或许只是指“比一个薪水微薄的临时工要好，而不是一个真正的人类事实核查员。”他将这一情况比作1985年棋类软件声称具备超人能力。

马库斯认为，为了验证超人表现的说法，SAFE应与专业的人类核查员进行基准测试，而不仅仅是与偶尔的临时工比较。理解人类评分者的资格与方法，对准确解读这些结果至关重要。

成本节约与模型基准测评

SAFE的一个显著优势在于其成本效益；研究人员发现，使用AI系统的成本大约是雇佣人类事实核查员的20分之一。随着语言模型生成的信息量日益增加，拥有一个经济实惠且可扩展的验证解决方案显得尤为重要。

DeepMind团队使用名为LongFact的新基准评估了来自四个家族（Gemini、GPT、Claude和PaLM-2）的13个主要语言模型的事实准确性。研究结果表明，较大的模型通常犯的事实错误较少。然而，即便是表现最佳的模型也仍然产生了相当数量的错误，强调了在依赖语言模型时需保持谨慎。像SAFE这样的工具在降低这些风险方面可能发挥重要作用。

透明度与人类基准的需求

尽管SAFE的代码和LongFact数据集已在GitHub上公开，允许进一步审查与开发，但关于研究中使用的人类基准的额外透明度仍然必要。了解临时工的资格和流程对理解SAFE的表现至关重要。

随着科技公司努力开发越来越复杂的语言模型以满足不同应用需求，自动验证其输出的能力可能变得至关重要。像SAFE这样的创新标志着在建立AI生成信息的信任与问责方面取得了重要进展。

然而，推动如此有影响力的技术进步必须在透明的过程中进行，广泛征求不同利益相关者的意见。与真正的专家而非仅限于临时工的全面透明基准测试，将是衡量真正进展的关键。只有这样，我们才能真正理解自动事实核查在打击虚假信息方面的有效性。

埃隆·马斯克发布Grok-1.5：接近GPT-4性能里程碑

SambaNova推出AI Samba-CoE v0.2：在创新与性能上超越Databricks DBRX

Most people like

Janitor AI

46.9M

使用Janitor AI设计个性多样的NSFW虚构聊天机器人角色。通过这款工具，您可以轻松打造适合不同需求和兴趣的聊天伙伴。无论是友好的交流还是更刺激的互动，Janitor AI都能帮助您实现创意构想。

人工智能聊天机器人 AI聊天机器人

Programmers Force

29.3K

全球企业正在越来越多地采用人工智能解决方案，以提升效率和创新能力。这些解决方案不仅能够改变企业的运营方式，还能帮助它们在激烈的市场竞争中脱颖而出。无论是数据分析、客户互动还是流程自动化，人工智能技术正成为企业发展的关键驱动力。获取最新的人工智能发展动态，了解全球企业如何利用这些先进技术，实现转型与增长。

人工智能其他

Transcript

36.2K

终极学习工具为学生提供快速洞察与深入理解，助力提升问题解决能力和促进学术成长。

学习工具 AI响应生成器

Blainy

29.6K

AI 驱动的科研论文写作工具助力学术创作，提升论文质量与效率。通过智能化的功能，这些工具为研究人员提供了从文献综述到数据分析的全方位支持，帮助他们更高效地构思和撰写论文。无论是新手还是资深研究者，AI工具都能优化写作流程，助您在学术界脱颖而出。

研究论文写作工具写作助手

Find AI tools in YBX