谷歌DeepMind最近的一项研究表明,人工智能系统在评估大型语言模型生成信息的准确性方面,优于人类事实核查员。这篇名为《大型语言模型中的长篇事实性》(“Long-form factuality in large language models”)的论文已在arXiv上发布,介绍了一种名为搜索增强事实性评估器(SAFE)的创新方法。该方法利用大型语言模型将生成的文本分解为独立事实,并通过利用谷歌搜索结果来评估每个主张的准确性。
SAFE的工作流程包括将长篇回答拆分为单独的事实,并通过多步骤推理来评估每个事实的准确性,具体做法是进行谷歌搜索,以验证信息是否有相关来源支持。
对“超人”表现的争论
研究人员将SAFE与人类注释员进行了比较,使用了大约16,000个事实的数据集。他们发现,SAFE的评估与人类评分的吻合度达到72%。在100个不一致的案例中,SAFE的判断正确率为76%。尽管论文声称“LLM代理可以实现超人级的评分表现”,但一些专家对此定义提出质疑。著名AI研究人员加里·马库斯在推特上表示,“超人级”或许只是指“比一个薪水微薄的临时工要好,而不是一个真正的人类事实核查员。”他将这一情况比作1985年棋类软件声称具备超人能力。
马库斯认为,为了验证超人表现的说法,SAFE应与专业的人类核查员进行基准测试,而不仅仅是与偶尔的临时工比较。理解人类评分者的资格与方法,对准确解读这些结果至关重要。
成本节约与模型基准测评
SAFE的一个显著优势在于其成本效益;研究人员发现,使用AI系统的成本大约是雇佣人类事实核查员的20分之一。随着语言模型生成的信息量日益增加,拥有一个经济实惠且可扩展的验证解决方案显得尤为重要。
DeepMind团队使用名为LongFact的新基准评估了来自四个家族(Gemini、GPT、Claude和PaLM-2)的13个主要语言模型的事实准确性。研究结果表明,较大的模型通常犯的事实错误较少。然而,即便是表现最佳的模型也仍然产生了相当数量的错误,强调了在依赖语言模型时需保持谨慎。像SAFE这样的工具在降低这些风险方面可能发挥重要作用。
透明度与人类基准的需求
尽管SAFE的代码和LongFact数据集已在GitHub上公开,允许进一步审查与开发,但关于研究中使用的人类基准的额外透明度仍然必要。了解临时工的资格和流程对理解SAFE的表现至关重要。
随着科技公司努力开发越来越复杂的语言模型以满足不同应用需求,自动验证其输出的能力可能变得至关重要。像SAFE这样的创新标志着在建立AI生成信息的信任与问责方面取得了重要进展。
然而,推动如此有影响力的技术进步必须在透明的过程中进行,广泛征求不同利益相关者的意见。与真正的专家而非仅限于临时工的全面透明基准测试,将是衡量真正进展的关键。只有这样,我们才能真正理解自动事实核查在打击虚假信息方面的有效性。