提升生成性人工智能推理能力:谷歌DeepMind发布GenRM技术

谷歌DeepMind推出生成评估器GenRM,以增强AI推理能力

2023年8月27日,谷歌DeepMind团队在arXiv上发表了一篇论文,介绍了他们创新的生成评估器GenRM。这一新的奖励模型旨在显著提升生成AI的推理能力。

目前,改善大型语言模型(LLM)的主要方法是“最佳中的N”策略。该方法生成N个候选解决方案,随后由评估器对它们进行排名,以确定最佳选项。然而,传统的LLM评估器通常仅作为判别分类器,未能充分利用预训练LLM的文本生成能力。

为了解决这一限制,DeepMind团队训练了该评估器,使其能够预测下一个令牌,整合了验证和解决方案生成。GenRM相比于传统评估器具备以下几个显著优势:

- 无缝整合指令调整

- 支持链式推理

- 利用多数投票计算额外推理时间

在涉及算法和基础数学推理的任务中,GenRM在与Gemma基础的评估器测试时,其表现优于判别评估器和LLM作为评判者评估器,问题解决成功率提高了16%至64%。

谷歌DeepMind表示,GenRM标志着AI奖励系统的一次重要进化,特别是在新模型训练中提升预防潜在欺诈行为的能力。这一进展凸显了完善奖励模型的必要性,以确保AI输出符合社会责任标准。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles