来自微软亚洲研究院、北京大学和西安交通大学的研究人员提出了一种创新技术,以提升大型语言模型(LLMs)在数学问题解决方面的能力。这种方法模拟人类的学习过程,鼓励LLMs从错误中学习。
新公布的策略被称为“学习从错误中”(LeMa),重点在于训练人工智能识别和纠正自身错误,从而提高推理能力。这一研究成果在近期发表的论文中得到了详细说明。
LeMa的灵感来源
研究人员从人类学习过程中汲取灵感,强调了学生如何通过错误促进未来的学习和表现。正如作者所指出的:“一个遇到困难数学问题的学生会从错误中学习,并了解如何纠正这些错误。”这一原则通过GPT-4生成的错误修正数据对L翿模型进行了微调。
LeMa如何提升数学推理能力
最初,像LLaMA-2这样的模型在解决数学文字问题时会产生错误的推理路径。随后,GPT-4识别了这些错误,澄清了问题并提供了正确的推理路径。研究人员利用这些精炼的数据对原始模型进行了再训练。
LeMa的出色成果
这一新方法的结果显著。研究人员报告称:“在五个基础LLM和两项数学推理任务中,LeMa的表现始终优于仅基于思维链(CoT)数据的微调。”专业模型,如WizardMath和MetaMath,也从LeMa中受益,在GSM8K上获得85.4%的准确率,在MATH上获得27.1%的准确率,超过了这些困难领域先前的非执行开源模型的最佳表现。
更广泛的影响和未来前景
研究人员的工作,包括代码、数据和模型,已在GitHub上公开,促进了人工智能社区的合作,为机器学习的进一步创新铺平了道路。
LeMa的引入标志着人工智能的重要进步,显示出机器学习可以更接近人类的学习过程。这一演变有可能在医疗、金融和自动驾驶等依赖人工智能的领域引发革命性变化,而错误修正和持续学习是这些领域的关键。
随着人工智能领域的不断发展,整合人类般的学习方法,如从错误中学习,对于开发更高效、更有影响力的人工智能系统至关重要。这一突破突显了人工智能的巨大潜力,使我们更接近一个人工智能在复杂问题解决任务中超越人类能力的未来。