为了提升大语言模型(LLMs)的推理能力,谷歌DeepMind与南加州大学的研究人员推出了一种开创性的“自我发现”提示框架。这一创新方法在arXiv和Hugging Face上发表,超越现有的提示技术,已在多个模型(包括OpenAI的GPT-4和谷歌的PaLM 2)上展现了显著的性能提升。
研究人员在论文中指出:“与链式思维(CoT)方法相比,自我发现方法在复杂推理基准测试(如BigBench-Hard和MATH)上的表现提升了多达32%。”这个自我发现框架使得LLMs能够自主识别特定任务的推理结构,从而更有效地解决问题。通过分析多个基本推理模块,如批判性思维和逐步推理,模型能够构建出在问题解决中遵循的明确推理框架。
此方法的一个重要优点是其高效性,所需计算能力减少了10到40倍,这对企业来说具有极大优势。
LLM推理能力的发展
借助处理指令、推理和生成连贯答案的能力,LLMs已经发展成熟,能够应对多种任务。这些模型采用了变换器架构,利用从人类推理和问题解决认知理论中提取的多种提示策略,包括少量样本和零样本的链式思维提示、将任务分解为子问题,以及反思性回顾提示以推导一般原则。
虽然这些方法(特别是链式思维)有效,但往往依赖于对任务处理的隐含假设。研究人员认为,这可能不是最佳选择,因为每个任务都有独特的内在结构,可能会受益于量身定制的技术。为此,DeepMind和USC团队提出了一种综合提示框架,能够自主识别潜在结构,以选择最合适的推理策略并优化效率。
显著的性能提升
为了评估新框架的有效性,研究人员对多个模型进行了测试,包括GPT-4和PaLM 2-L,在25个推理任务上(如BigBench-Hard和MATH)进行实验。自我发现框架在25个任务中有21个超越了链式思维方法,性能提升达32%,同时效率显著提高,所需推理计算量减少了10到40倍。
测试结果显示,当使用GPT-4时,自我发现方法在BigBench-Hard、Thinking for Doing和MATH任务中的准确率分别为81%、85%和73%。相比之下,链式思维方法的准确率仅为75%、52%和71%。在计划与解决方法的比较中也观察到类似的性能差距。
在PaLM 2-L中,这三项任务的准确率分别为67%、69%和50.5%,均超过链式思维方法(60%、40%和42%)及计划与解决方法(61%、42%和49%)。
推进AI的推理能力
自我发现提示框架有望根本改变LLMs的解决问题方式,推动其向通用智能的方向发展。转移性研究表明,构建的推理结构在不同模型类型中具有广泛适用性,并与人类推理具备相似特征。
“展望未来,我们期待继续探索LLMs中的结构化推理,以提升问题解决能力,并为人机协作开辟新的路径,”研究团队总结道。