LiveBench:无污染测试数据与客观评分的开放式LLM基准

一个由Abacus.AI、纽约大学、Nvidia、马里兰大学和南加州大学组成的合作团队推出了LiveBench,这是一项开创性的基准测试,旨在克服现有行业标准所面临的重大限制。LiveBench作为一款通用评估工具,专为大型语言模型(LLMs)设计,提供无污染的测试数据集,避免了以往基准测试因多次重复使用而导致的数据污染问题。

什么是基准测试?

基准测试是一个标准化的测试,通过一系列任务或指标评估AI模型的性能。它帮助研究人员和开发者比较结果、追踪进展,了解不同模型的能力。

LiveBench的亮点

LiveBench尤为值得注意的是,它得到了AI领域领军人物Yann LeCun的支持,他是Meta的首席AI科学家,此外还有Abacus.AI研究主管Colin White及其他多位顶尖研究人员的参与。主要贡献者Goldblum强调,改进LLM基准测试的必要性来源于生成最新且多样化的问题,以消除测试集的污染。

随着大型语言模型(LLMs)的兴起,传统机器学习基准测试的不足显而易见。大多数基准测试公开可用,许多现代LLM在训练时使用了大量互联网数据。因此,如果LLM在训练期间接触到了基准问题,它的表现可能会显得异常高,这引发了关于评估可靠性的担忧。

LiveBench通过每月发布最新问题,旨在解决这些不足。这些问题来源于各种近期数据集、数学竞赛、arXiv论文、新闻报道和IMDb电影概要。目前已提供960个问题,每个问题都有可验证的客观答案,确保准确评分而无需依赖LLM进行评判。

任务类别

LiveBench涵盖18个任务,分为六个类别,利用不断更新的信息源,提高问题的多样性和挑战性。任务类别包括:

- 数学:来自高中数学竞赛和高级AMPS问题。

- 编码:包括代码生成和新颖的代码补全任务。

- 推理:来自Big-Bench Hard的Web of Lies和位置推理的挑战场景。

- 语言理解:涉及文字谜题、拼写错误纠正和电影概要解读的任务。

- 指令执行:四个任务集中在改写、总结和基于近期文章生成故事。

- 数据分析:重新格式化表格、识别可连接列、使用近期数据集预测列类型的任务。

模型的评估基于它们的成功率,目标范围在30%到70%之间,以反映任务难度。

LiveBench LLM排行榜

截至2024年6月12日,LiveBench已评估了多款知名LLM,结果显示,顶尖模型的准确率均低于60%。例如,OpenAI的GPT-4o以平均分53.79领先,紧随其后的是GPT-4 Turbo,分数为53.34。

对商业领导者的启示

在快速变化的AI环境中,选择合适的LLM对商业领导者而言充满挑战。基准测试为模型性能提供了保障,但往往无法提供完整的画面。Goldblum指出,LiveBench简化了模型比较,减轻了数据污染和人工评估偏见的担忧。

与现有基准的比较

LiveBench团队与已建立的基准如LMSYS的Chatbot Arena和Arena-Hard进行过分析。虽然LiveBench的趋势与其他基准大致一致,但特定差异显示出LLM评判中固有的潜在偏见。

LiveBench被设计为一个开源工具,任何人都可以使用、贡献和拓展其功能。正如White所指出的,有效的基准对于开发高性能LLM至关重要,从而加速模型的创新。开发者可以通过GitHub访问LiveBench的代码,并在Hugging Face上使用其数据集。

Most people like

Find AI tools in YBX