3月31日的最新报告显示,尽管人工智能聊天机器人技术不断进步,但它们仍然存在一个普遍问题:这些系统常常提供事实错误的答案。这种现象被称为“幻觉”,指的是人工智能生成看似可信但实际上错误的信息。
为了解决这一挑战,谷歌DeepMind和斯坦福大学的研究人员开发了一种名为“搜索增强事实评估器”(SAFE)的工具。该工具利用大型语言模型来核实聊天机器人生成的复杂回答。研究成果、实验代码和数据集均已向公众开放。
SAFE系统通过四个步骤验证人工智能生成的回复的准确性和真实性:首先,将回复拆分为需验证的单独论点;其次,必要时对这些论点进行修正;第三,将论点与谷歌搜索结果进行比较;最后,评估每个事实与原始查询的相关性。
为了评估该系统的有效性,研究人员创建了一个名为LongFact的数据集,包含大约16,000个事实,并在13个大型语言模型(如Claude、Gemini、GPT和PaLM-2)上测试SAFE。结果表明,在分析100个有争议的事实时,经过进一步审查,SAFE的准确率达到了76%。此外,该框架表现出显著的成本效率,其费用比人工标注低20倍以上。这一进展标志着提升人工智能聊天机器人可靠性的重要一步。