排行榜：OpenAI 的 GPT-4 实现最低虚幻错误率

Home AI News CN 排行榜：OpenAI 的 GPT-4 实现最低虚幻错误率

根据Vectara最近的评估，OpenAI的GPT-4已成为在文档摘要时最小化“幻觉”现象的领先大型语言模型（LLM）。该公司在GitHub上推出了一份全面的排行榜，基于其幻觉评估模型对知名LLM进行了基准测试。该模型量化了生成不准确或捏造信息的幻觉实例的频率。

GPT-4及其变体GPT-4 Turbo表现出色，准确率达到97%，幻觉率仅为3%。紧随其后的是GPT-3.5 Turbo，准确率为96.5%，幻觉率稍高，为3.5%。

在非OpenAI模型中，Meta的700亿参数版本Llama 2脱颖而出，准确率为94.9%，幻觉率仅为5.1%。相比之下，谷歌的模型在排行榜上表现不佳。谷歌的Palm 2准确率为87.9%，幻觉率高达12.1%；而其聊天优化版本的准确率则下滑到72.8%，幻觉率更是达到了27.2%。

值得注意的是，谷歌Palm 2 Chat每个摘要生成的平均字数最高，为221个单词，而GPT-4的平均字数为81个单词。

评估方法

Vectara的评估旨在识别LLM输出中的幻觉，使用了开放源代码的数据集。该公司针对1,000个短文档测试每个模型，要求根据这些文档中提供的内容生成摘要。然而，只有831个文档被每个模型总结，其余文档由于内容限制被过滤。在所有模型共享的文档中，Vectara计算了整体的准确率和幻觉率。

需要注意的是，尽管测试内容不包含非法和“工作不安全”材料，但某些触发词的存在使得一些模型受到内容限制。

解决幻觉挑战

幻觉现象一直是企业广泛采用生成性人工智能的重大障碍。Vectara的产品负责人Shane Connelly在博客中指出，以前在有效量化幻觉方面的努力往往过于抽象或涉及争议主题，从而限制了其在商业中的实际应用。

Vectara创建的幻觉评估模型是开放源的，允许组织利用它来评估其在检索增强生成（RAG）框架中的语言模型的可靠性。该模型可以通过Hugging Face获取，用户可以根据自身的独特需求进行定制。

正如Connelly所言：“我们的目标是为企业提供必要的见解，以便通过全面和量化的分析，自信地实施生成系统。”通过提供对AI输出更清晰的理解，企业能够更好地驾驭生成性人工智能技术的复杂性。

突破性进展：两个人工智能系统成功自助协商合同

OpenAI 与 Anthropic 合并追踪：山姆·奧特曼被称为'殉道者'

Most people like

Foxy AI

65.8K

创作者首选的人工智能平台，助力您实现创意梦想。探索我们如何通过先进技术为内容创作者提供无与伦比的支持，提升创作效率和灵感。

人工智能平台 AI头像生成器

Autify

40.1K

引入AI驱动的软件测试自动化平台，彻底改变了软件开发流程。通过智能化的测试管理与执行，这些先进的平台不仅显著提高了测试效率，还能降低错误率。无论是初创企业还是大型企业，AI驱动的测试解决方案都可以为它们的产品质量保障与时间成本优化提供强有力的支持。

人工智能驱动的测试平台其他

AI Image Extender

11.3K

AI照片扩展工具是创新科技的产物，旨在帮助用户轻松提升照片的分辨率和细节。这些工具运用先进的人工智能技术，能够智能分析和重建图像内容，确保在放大图片时无论是细节的保留还是画质的提升都得到最佳效果。无论是摄影师、设计师，还是普通用户，AI照片扩展工具都可以满足各种需求，使得每一张照片都能展现出最佳状态。

AI 图像扩展器 AI 相片和图像生成器

Tweetlio

9.5K

AI工具：优化和调度Twitter互动的智能解决方案。

推特管理 AI Twitter 助手

Find AI tools in YBX