来自旧金山的Galileo公司发布了一项新的幻觉指数,旨在帮助企业开发、优化和监测大型语言模型(LLM)应用。该指数显示,OpenAI的GPT-4模型在多个任务中表现出最少的幻觉现象。
今天发布的这一指数评估了近十种开源和闭源的LLM,包括Meta的Llama系列,比较它们在各种任务中的表现,以确定哪种模型的幻觉现象最少。结果显示,尽管所有LLM在不同任务中表现各异,OpenAI的模型在多个场景中始终优于其他模型。该指数的目的在于帮助企业克服幻觉问题,这是阻碍LLM在医疗等关键行业广泛应用的一大障碍。
追踪LLM幻觉:一项挑战
尽管企业对生成式AI和LLM的部署兴趣日益浓厚,但性能差距依然存在。LLM可能会因为依赖向量数据库而产生不完全准确的回答,这种数据库基于相关术语和概念,而非真实内容。
Galileo的联合创始人兼CTO Atindriyo Sanyal解释道:“影响生成式AI产品部署的因素有很多。例如,您的工具是设计来从简单提示生成故事,还是用于根据专有信息回答客户咨询的聊天机器人?”目前,企业通常使用基准来评估模型性能,但缺乏对幻觉发生的全面测量,直到现在。
为了解决这一问题,Sanyal及其团队对11种主流的开源和闭源LLM进行了评测,涉及任务包括不使用检索增强生成(RAG)的问答、使用RAG的问答和长文本生成。他们选择了七个被视为严格基准的数据集,以有效挑战每个模型在任务上的能力。例如,在没有RAG的问答类别中,他们使用TruthfulQA和TriviaQA的数据集来测量模型处理一般查询的能力。
Galileo团队对数据集进行了缩减和注释,以建立准确性评估的基准。他们采用自有的正确性和上下文遵循指标来评估结果。Sanyal补充道:“这些指标使工程师和数据科学家能够有效识别幻觉。正确性关注逻辑和推理错误,而上下文遵循则评估在给定文档内的推理能力。”
性能概览
在没有检索的问答类别中,OpenAI的GPT模型表现卓越,GPT-4-0613的正确性得分为0.77,紧随其后的是GPT-3.5 Turbo-1106(得分0.74)、GPT-3.5-Turbo-Instruct(得分0.70)和GPT-3.5-Turbo-0613(得分0.70)。Meta的Llama-2-70b以0.65的得分成为最接近的竞争者,而Llama-2-7b-chat和Mosaic ML的MPT-7b-instruct得分较低,分别为0.52和0.40。
在检索任务中,GPT-4-0613再次成为最高表现者,其上下文遵循得分为0.76,紧随其后的是GPT-3.5 Turbo-0613和-1106,得分分别为0.75和0.74。值得一提的是,Hugging Face的Zephyr-7b以0.71的得分超越了Meta的Llama-2-70b(得分为0.68)。阿联酋的Falcon-40b和Mosaic ML的MPT-7b则有待提升,得分分别为0.60和0.58。
在长文本生成任务中,GPT-4-0613和Llama-2-70b的得分高达0.83和0.82,表明幻觉现象极少。GPT-3.5 Turbo-1106与Llama的得分相同,而0613版本也以0.81紧随其后,MPT-7b则以0.53得分落后。
平衡性能与成本
虽然OpenAI的GPT-4在各项任务中表现优秀,但其API定价可能导致成本显著增加。Galileo建议团队考虑GPT-3.5-Turbo模型,以在降低开支的同时获得相似性能。此外,像Llama-2-70b这样的开源模型在性能和经济性之间提供了良好的平衡。
需要认识到,这一指数将随着新模型的推出及现有模型的升级而不断演变。Galileo计划每季度更新该指数,为团队提供有关不同LLM在各种任务中幻觉倾向的准确排名。
Sanyal最后表示:“我们的目标是为团队提供一个解决幻觉问题的坚实基础。虽然我们不期望幻觉指数被视为最终结论,但希望它能为他们的生成式AI项目提供一个全面的起点。”