根据Vectara最近的评估,OpenAI的GPT-4已成为在文档摘要时最小化“幻觉”现象的领先大型语言模型(LLM)。该公司在GitHub上推出了一份全面的排行榜,基于其幻觉评估模型对知名LLM进行了基准测试。该模型量化了生成不准确或捏造信息的幻觉实例的频率。
GPT-4及其变体GPT-4 Turbo表现出色,准确率达到97%,幻觉率仅为3%。紧随其后的是GPT-3.5 Turbo,准确率为96.5%,幻觉率稍高,为3.5%。
在非OpenAI模型中,Meta的700亿参数版本Llama 2脱颖而出,准确率为94.9%,幻觉率仅为5.1%。相比之下,谷歌的模型在排行榜上表现不佳。谷歌的Palm 2准确率为87.9%,幻觉率高达12.1%;而其聊天优化版本的准确率则下滑到72.8%,幻觉率更是达到了27.2%。
值得注意的是,谷歌Palm 2 Chat每个摘要生成的平均字数最高,为221个单词,而GPT-4的平均字数为81个单词。
评估方法
Vectara的评估旨在识别LLM输出中的幻觉,使用了开放源代码的数据集。该公司针对1,000个短文档测试每个模型,要求根据这些文档中提供的内容生成摘要。然而,只有831个文档被每个模型总结,其余文档由于内容限制被过滤。在所有模型共享的文档中,Vectara计算了整体的准确率和幻觉率。
需要注意的是,尽管测试内容不包含非法和“工作不安全”材料,但某些触发词的存在使得一些模型受到内容限制。
解决幻觉挑战
幻觉现象一直是企业广泛采用生成性人工智能的重大障碍。Vectara的产品负责人Shane Connelly在博客中指出,以前在有效量化幻觉方面的努力往往过于抽象或涉及争议主题,从而限制了其在商业中的实际应用。
Vectara创建的幻觉评估模型是开放源的,允许组织利用它来评估其在检索增强生成(RAG)框架中的语言模型的可靠性。该模型可以通过Hugging Face获取,用户可以根据自身的独特需求进行定制。
正如Connelly所言:“我们的目标是为企业提供必要的见解,以便通过全面和量化的分析,自信地实施生成系统。”通过提供对AI输出更清晰的理解,企业能够更好地驾驭生成性人工智能技术的复杂性。