LiveBench：无污染测试数据与客观评分的开放式LLM基准

Home AI News CN LiveBench：无污染测试数据与客观评分的开放式LLM基准

一个由Abacus.AI、纽约大学、Nvidia、马里兰大学和南加州大学组成的合作团队推出了LiveBench，这是一项开创性的基准测试，旨在克服现有行业标准所面临的重大限制。LiveBench作为一款通用评估工具，专为大型语言模型（LLMs）设计，提供无污染的测试数据集，避免了以往基准测试因多次重复使用而导致的数据污染问题。

什么是基准测试？

基准测试是一个标准化的测试，通过一系列任务或指标评估AI模型的性能。它帮助研究人员和开发者比较结果、追踪进展，了解不同模型的能力。

LiveBench的亮点

LiveBench尤为值得注意的是，它得到了AI领域领军人物Yann LeCun的支持，他是Meta的首席AI科学家，此外还有Abacus.AI研究主管Colin White及其他多位顶尖研究人员的参与。主要贡献者Goldblum强调，改进LLM基准测试的必要性来源于生成最新且多样化的问题，以消除测试集的污染。

随着大型语言模型（LLMs）的兴起，传统机器学习基准测试的不足显而易见。大多数基准测试公开可用，许多现代LLM在训练时使用了大量互联网数据。因此，如果LLM在训练期间接触到了基准问题，它的表现可能会显得异常高，这引发了关于评估可靠性的担忧。

LiveBench通过每月发布最新问题，旨在解决这些不足。这些问题来源于各种近期数据集、数学竞赛、arXiv论文、新闻报道和IMDb电影概要。目前已提供960个问题，每个问题都有可验证的客观答案，确保准确评分而无需依赖LLM进行评判。

任务类别

LiveBench涵盖18个任务，分为六个类别，利用不断更新的信息源，提高问题的多样性和挑战性。任务类别包括：

- 数学：来自高中数学竞赛和高级AMPS问题。

- 编码：包括代码生成和新颖的代码补全任务。

- 推理：来自Big-Bench Hard的Web of Lies和位置推理的挑战场景。

- 语言理解：涉及文字谜题、拼写错误纠正和电影概要解读的任务。

- 指令执行：四个任务集中在改写、总结和基于近期文章生成故事。

- 数据分析：重新格式化表格、识别可连接列、使用近期数据集预测列类型的任务。

模型的评估基于它们的成功率，目标范围在30%到70%之间，以反映任务难度。

LiveBench LLM排行榜