大型语言模型(LLMs)在处理复杂推理任务时,常常会出现事实和逻辑错误。为了解决这一问题,研究人员通常会实施验证器或奖励模型,以评估和选择从 LLMs 生成的一组输出中最准确的响应。
最近,来自谷歌 DeepMind、多伦多大学、Mila 以及加利福尼亚大学洛杉矶分校的研究者们提出了一种名为 GenRM 的新方法。该方法充分利用 LLMs 的生成能力,以增强验证过程。GenRM 是 LLM 应用中一种有效的工具,特别是在传统验证方法无法满足需求的情况下。
传统验证器和奖励模型的局限性
提高 LLM 准确性的常见方法是生成多个候选答案,并利用独立组件识别最佳答案。这需要一个可靠的验证器或奖励模型。通常,基于 LLM 的验证器被训练为判别型奖励模型(RMs),它们给候选解决方案分配分数来判断其正确性。然而,这些 RMs 并没有充分利用 LLMs 在生成和处理响应方面的固有优势。
DeepMind 的高级研究科学家 Rishabh Agarwal 表示:“传统的奖励模型(RMs)在微调 LLM 时并未充分利用 LLMs 本质上设计的文本生成能力。”另一种常见的方法 LLM-as-a-Judge,通过高级提示评估响应。尽管这种方法灵活,但在训练中并未获得奖励模型的能力。
生成奖励模型
DeepMind 的 GenRM 提供了一种替代方案,通过下一个 token 预测来训练验证器,充分发挥 LLMs 的生成优势。Agarwal 指出:“通过下一个 token 预测来训练 RMs,使它们能够利用生成型 LLMs 的各种优势。我们展示了同一个模型可以验证和生成解决方案,并在验证之前进行链式推理,以提高准确性。”
在 GenRM 中,验证决策以 token 的形式表达。例如,为了对解决方案打分,验证器使用类似“答案正确吗?”的提示,并基于上下文表示为文本 token 的概率(例如,“是”或“否”)。
由于验证通常涉及复杂推理,生成型验证器可以显著受益于高阶提示技术,比如链式推理(CoT),促进模型在得出答案之前理清思路。
“具体来说,我们可以在决定解决方案正确性之前生成中间推理步骤或批判(CoT),可能会发现直接验证器遗漏的细微错误,”研究人员表示。用于训练 GenRM 模型的 CoT 理由可以来自人为输入或其他 LLM。在推理过程中,GenRM 首先生成 CoT 理由,然后利用“是” token 的概率来确定正确性分数。
为进一步提高 CoT 验证器的准确性,研究人员使用了多数投票法。他们采样多个 CoT 链,并计算所有样本中的平均“是”分数,有效优化了测试时间的计算。
Agarwal 解释道:“GenRM 可以被视为将 LLM-as-a-Judge 与传统验证器结合,它代表了在特定领域的验证数据上训练的 LLM-as-a-Judge。因此,GenRM 适用于任何现成提示 LLMs 不足的领域。”
GenRM 的实际应用
为了评估 GenRM 的有效性,DeepMind 研究人员在多个推理任务上进行了测试,包括最后字母串联、单词排序和词汇数学问题。研究人员将 GenRM 与传统方法进行比较,包括判别奖励模型、LLM-as-a-Judge 以及“自我一致性”,后者模型生成多个答案并选择最频繁的一个。
在所有任务中,使用 CoT 的 GenRM 一直优于其他替代方法,尤其是经过特殊训练的判别奖励模型。在 GSM8K 数学推理基准测试中,为 GenRM 训练的 Gemma-9B 模型实现了 92.8% 的解题率,超过了 GPT-4 和 Gemini 1.5 Pro 的表现。
研究人员指出:“通过将解决方案生成与下一 token 预测目标结合,GenRM 一直提高了各项任务的验证表现。直接和基于 CoT 的生成型验证器均显示出这一改进,这表明教会验证器模仿正确解决方案通常是有益的。”
实验还显示,GenRM 随着数据集规模和模型能力的增加而有利于扩展。此外,在采样更多响应的情况下,具有 CoT 的 GenRM 继续显示改进,为 LLM 应用开发者提供了在准确性和计算成本之间取得平衡的灵活性。
Agarwal 表示:“与传统验证器相比,GenRM 能够在使用相同数据的情况下通过联合训练生成和验证来超越它们,而 GenRM 的训练仅涉及标准微调。然而,要充分发挥 GenRM 的能力,我们需要能够阐明奖励标签的批判或验证理由。对于高质量数据,这可能涉及人为输入,但更具可扩展性的解决方案则是使用合成的 LLM 生成理由。”
GenRM 的未来方向可能包括扩展合成验证理由以应对开放式生成任务,将 GenRM 集成到强化学习管道中,以及利用高级 LLM 能力(如少量学习、检索增强生成、ReAct 以及代码生成和执行)进一步提升验证性能。