DeepMind的GenRM通过自我验证输出提高大语言模型准确性

Home AI News CN DeepMind的GenRM通过自我验证输出提高大语言模型准确性

大型语言模型（LLMs）在处理复杂推理任务时，常常会出现事实和逻辑错误。为了解决这一问题，研究人员通常会实施验证器或奖励模型，以评估和选择从 LLMs 生成的一组输出中最准确的响应。

最近，来自谷歌 DeepMind、多伦多大学、Mila 以及加利福尼亚大学洛杉矶分校的研究者们提出了一种名为 GenRM 的新方法。该方法充分利用 LLMs 的生成能力，以增强验证过程。GenRM 是 LLM 应用中一种有效的工具，特别是在传统验证方法无法满足需求的情况下。

传统验证器和奖励模型的局限性

提高 LLM 准确性的常见方法是生成多个候选答案，并利用独立组件识别最佳答案。这需要一个可靠的验证器或奖励模型。通常，基于 LLM 的验证器被训练为判别型奖励模型（RMs），它们给候选解决方案分配分数来判断其正确性。然而，这些 RMs 并没有充分利用 LLMs 在生成和处理响应方面的固有优势。

DeepMind 的高级研究科学家 Rishabh Agarwal 表示：“传统的奖励模型（RMs）在微调 LLM 时并未充分利用 LLMs 本质上设计的文本生成能力。”另一种常见的方法 LLM-as-a-Judge，通过高级提示评估响应。尽管这种方法灵活，但在训练中并未获得奖励模型的能力。

生成奖励模型

DeepMind 的 GenRM 提供了一种替代方案，通过下一个 token 预测来训练验证器，充分发挥 LLMs 的生成优势。Agarwal 指出：“通过下一个 token 预测来训练 RMs，使它们能够利用生成型 LLMs 的各种优势。我们展示了同一个模型可以验证和生成解决方案，并在验证之前进行链式推理，以提高准确性。”

在 GenRM 中，验证决策以 token 的形式表达。例如，为了对解决方案打分，验证器使用类似“答案正确吗？”的提示，并基于上下文表示为文本 token 的概率（例如，“是”或“否”）。

由于验证通常涉及复杂推理，生成型验证器可以显著受益于高阶提示技术，比如链式推理（CoT），促进模型在得出答案之前理清思路。

“具体来说，我们可以在决定解决方案正确性之前生成中间推理步骤或批判（CoT），可能会发现直接验证器遗漏的细微错误，”研究人员表示。用于训练 GenRM 模型的 CoT 理由可以来自人为输入或其他 LLM。在推理过程中，GenRM 首先生成 CoT 理由，然后利用“是” token 的概率来确定正确性分数。

为进一步提高 CoT 验证器的准确性，研究人员使用了多数投票法。他们采样多个 CoT 链，并计算所有样本中的平均“是”分数，有效优化了测试时间的计算。

Agarwal 解释道：“GenRM 可以被视为将 LLM-as-a-Judge 与传统验证器结合，它代表了在特定领域的验证数据上训练的 LLM-as-a-Judge。因此，GenRM 适用于任何现成提示 LLMs 不足的领域。”

GenRM 的实际应用

为了评估 GenRM 的有效性，DeepMind 研究人员在多个推理任务上进行了测试，包括最后字母串联、单词排序和词汇数学问题。研究人员将 GenRM 与传统方法进行比较，包括判别奖励模型、LLM-as-a-Judge 以及“自我一致性”，后者模型生成多个答案并选择最频繁的一个。

在所有任务中，使用 CoT 的 GenRM 一直优于其他替代方法，尤其是经过特殊训练的判别奖励模型。在 GSM8K 数学推理基准测试中，为 GenRM 训练的 Gemma-9B 模型实现了 92.8% 的解题率，超过了 GPT-4 和 Gemini 1.5 Pro 的表现。

研究人员指出：“通过将解决方案生成与下一 token 预测目标结合，GenRM 一直提高了各项任务的验证表现。直接和基于 CoT 的生成型验证器均显示出这一改进，这表明教会验证器模仿正确解决方案通常是有益的。”

实验还显示，GenRM 随着数据集规模和模型能力的增加而有利于扩展。此外，在采样更多响应的情况下，具有 CoT 的 GenRM 继续显示改进，为 LLM 应用开发者提供了在准确性和计算成本之间取得平衡的灵活性。

Agarwal 表示：“与传统验证器相比，GenRM 能够在使用相同数据的情况下通过联合训练生成和验证来超越它们，而 GenRM 的训练仅涉及标准微调。然而，要充分发挥 GenRM 的能力，我们需要能够阐明奖励标签的批判或验证理由。对于高质量数据，这可能涉及人为输入，但更具可扩展性的解决方案则是使用合成的 LLM 生成理由。”

GenRM 的未来方向可能包括扩展合成验证理由以应对开放式生成任务，将 GenRM 集成到强化学习管道中，以及利用高级 LLM 能力（如少量学习、检索增强生成、ReAct 以及代码生成和执行）进一步提升验证性能。

谷歌在Chrome地址栏中引入Gemini AI集成，提升用户体验

优化复杂数据集查询：表格增强生成如何超越文本到SQL的表现