革新技术通过筛选无关信息提升LLM推理能力

大型语言模型(LLMs)在各个领域取得了显著进展,但它们的推理能力仍然是一个活跃的研究领域。最近的研究探讨了不同的提示技术,以提升LLMs在逻辑问题解决方面的技能。

来自Meta的研究团队提出了一种突破性的方法,称为系统2注意力(System 2 Attention,S2A),该方法结合了心理学的概念。S2A通过去除误导性或无关的信息,优化用户提示,使LLMs能够专注于与任务相关的数据。这种聚焦提高了回答问题和推理任务的准确性。

早期实验表明,使用S2A的语言模型表现出显著的改进,尤其是在需要可靠推理能力的应用场景中,显得格外有价值。

LLMs与推理

LLMs的推理性能存在差异。虽然某些提示设计策略可以提升其效果,但在面对提示中的无关或带有个人观点的内容时,这些模型常常表现不佳。例如,当提示包含个人意见或猜测时,模型可能仅仅重复用户的输入,而不是提供准确的答案。这种局限性源于变压器架构内在的训练和注意力机制。变压器模型重视下一个标记的预测,使其对上下文输入敏感。如果在特定上下文中提到了某个实体,模型往往会预测其再次出现,这可能导致输出偏向于重复的标记。

理解系统2注意力

研究人员提出了一种创新的注意力机制,利用LLMs作为自然语言推理者。他们解释道:“我们利用LLMs遵循指令的能力,推动它们生成集中于相关材料的上下文,从而减少推理中的偏见。”

通过使用经过指令调优的LLMs来修订上下文,S2A有效地去除了不必要的文本,引导模型在生成响应之前优先考虑相关信息。系统2注意力这一名称源自心理学家丹尼尔·卡尼曼在其著作《思考,快与慢》中讨论的系统1和系统2思维。系统1思维快速且直觉,但可能因依赖心理捷径而导致偏见;而系统2思维更具分析性,需要更大的认知努力,以更逻辑的方式处理信息。S2A机制旨在缓解LLMs在解决推理任务时因标准注意力方法所产生的问题。

研究人员指出:“与传统的基于注意力的LLMs相比,S2A生成的响应更加真实,偏见更少。”

S2A的工作原理

S2A的技术过程简单分为两个步骤。首先,S2A修改原始上下文,去除无关部分;然后,将精炼后的上下文传递给主要LLM以生成输出。

实现初始步骤的方法多种多样。研究人员表示:“我们的做法利用了擅长相似推理和生成任务的指令调优LLMs,使我们能够将其作为指令提示来执行。”使用经过指令调优的LLMs可以根据任务要求或微调过程精确控制模型的注意力。例如,研究人员设计了一个函数,向模型发送零样本提示,要求其在原始提示上执行所需的S2A任务。这一提示指导模型在重新生成上下文时,将有用信息与查询区分开,以明确推理步骤。

他们还引入了几种S2A的变体。对于较短的上下文或强健的LLM,划分上下文和问题可能是不必要的。简单地提示进行不分区的重写就足够了。另一种变体在保留原始提示的同时添加了S2A生成的查询,使模型能够同时获得这两个版本。

研究团队在多个任务上测试了S2A,包括问答、长篇推理以及包含无关或误导信息的数学问题。S2A旨在通过引导模型依赖于产生最准确信息的数据,来客观地回答问题。

实验结果与未来方向

实验表明,S2A对观点偏见具有较强的抵抗力,使LLMs在面对干扰的提示时几乎可以表现得和使用干净提示时一样好。此外,配备S2A的LLMs在长篇生成任务中也表现出更高的客观性。

然而,研究人员承认,S2A并非万无一失;模型仍可能偶尔受到无关关联的影响。此外,S2A增加了生成响应的计算成本,因为其引入了额外步骤并要求上下文信息提取。这些方面突显了未来改进的潜力,使S2A成为LLM应用推理技术工具箱中的一个有前景的补充。

Most people like

Find AI tools in YBX