Meta的自学评估者助力大型语言模型生成自有训练数据

大型语言模型的人类评估:创新的必要性

人类评估长期以来被视为评估大型语言模型(LLMs)质量与准确性的金标准,特别是在创意写作和编码等开放性任务中。然而,这种方法往往成本高、速度慢,并且需要专业的技术人员。

自我学习评估器的出现

Meta FAIR 的研究人员开发了一个名为自我学习评估器的创新方法。该方法利用合成数据训练 LLM 评估器,而无需人类标注。尽管存在一些局限性,但这一方法有望提升 LLM 评估的效率和可扩展性,特别适合希望构建自定义模型的企业。

LLM 评估面临的挑战

LLMs 常常作为评估者,用于将其他模型与人类偏好对齐或提升自身性能,尤其是在创意和复杂指令场景中,任务往往存在多种有效结果。传统上,训练精确的 LLM 评估器依赖于大量人类标注的数据,这一过程既耗时又昂贵,从而限制了基于 LLM 的应用快速发展。

自我学习评估器的工作原理

自我学习评估器通过消除对人类标注数据的需求来应对这一问题。该模型采取 LLM 作为评审者的概念,接收输入、两个可能的答案以及评估提示,以生成推理链确定哪个答案更优。

这一过程自一个基础 LLM 开始,利用大量未标记的人类编写指令,通常出现在生产系统中。评估器从这一未经筛选的指令池中选择一组指令,并生成答案对:一个被“选为”高质量,另一个则被“拒绝”。

随后,评估器进行迭代训练。在每次迭代中,它会采样多个 LLM 作为评审者的推理轨迹和判断。正确的推理链将被纳入训练集,其中包括输入、真实答案、错误答案和判断链。模型在这一新数据集上进行微调,从而带来后续迭代更新。

自我学习评估器的测试

研究人员使用 Llama 3-70B-Instruct 模型启动自我学习评估器,并应用 WildChat 数据集,选择了超过 20,000 个推理类别示例。他们还探索了其他数据集和任务,包括编码和文字数学问题,使自我学习流程能够自动生成完整答案及训练集。

实验结果表明,自我学习评估器显著提高了基准模型在 RewardBench 基准测试中的准确性,性能在五次迭代中从 75.4% 提升至 88.7%,而无需任何人类标注。这一准确度可与一些利用人类标注数据训练的模型相媲美,甚至在某些情况下超越某些私有前沿模型。在多轮对话评估的 MT-Bench 基准测试中也观察到了类似的改进。

企业的意义

此研究与越来越多企业利用 LLMs 在自动自我改进循环中相一致,减少了在创建高性能模型时的人工劳动,提高了 AI 应用开发的可扩展性。自我学习评估器尤其适合处理大量未标记企业数据的企业,这些企业希望在没有大量人工标注的情况下微调模型。

然而,必须承认一些局限性。该方法依赖于与人类偏好对齐的初始种子模型。研究人员在初步训练数据集上使用了 Mixtral 8x22B 混合专家模型,强调了根据特定数据和任务谨慎选择相关种子和基础模型的必要性。

标准化基准可能无法完全捕捉 LLM 的潜力及其局限性。此外,完全依赖 LLM 进行自我评估的自动循环风险在基准优化的同时在现实应用中表现不佳。企业必须在各种训练阶段进行手动测试,以确保模型满足预期的性能标准。

Most people like

Find AI tools in YBX