大型语言模型(LLMs)在规划和推理任务中展现了巨大的潜力,通过探索多种解决方案来应对复杂问题。然而,目前的方法往往速度较慢、计算资源消耗高,有时结果也不可靠。
为了解决这些挑战,康奈尔大学和IBM研究院的研究人员开发了AutoToS,这是一种将LLM的规划能力与规则基搜索算法的高效性和精确性相结合的技术。AutoToS显著减少了人工干预,并降低了解决规划问题的计算成本,使其成为需要在广泛解空间中进行合理决策的LLM应用的可行解决方案。
创新的规划技术
近年来,对利用LLM解决规划问题的兴趣激增,催生了多种方法。其中,树结构的思想(Tree of Thoughts)使用LLM作为搜索算法来验证解决方案并提出修正。然而,这些技术面临两大挑战:对LLM调用量的高需求可能导致高昂的成本,以及对“完整性”和“可靠性”的缺乏保证。完整性确保如果存在解决方案,最终能够找到;而可靠性确认所有提供的解决方案都是有效的。
搜索思想(Thought of Search, ToS)提出了一种替代方案,利用LLM为搜索算法的关键组成部分生成代码:后继函数用于探索不同节点,目标函数用于判断是否达到预期状态。这种方法通过减少LLM在搜索过程中的参与,提高了效率。
IBM研究院的首席研究员迈克尔·卡茨(Michael Katz)解释道:“历史上,规划社区通常手动编写这些组件,或者从规划语言描述中生成,而这些描述要么是手动编码的,要么是从数据中学习的。我们的目标是利用大型语言模型从文本问题描述中生成搜索组件的代码。”
最初的ToS技术在搜索算法的可靠性和完整性方面取得了可喜的进展,但需要人工专家对生成的代码进行反馈,这成为了算法速度的瓶颈。
借助AutoToS实现自动化
为了解决这一限制,AutoToS使用单元测试和调试语句,并结合少量示例和连锁思考(CoT)提示技术,实现反馈和调试过程的自动化。
AutoToS的工作流程如下:首先,它向LLM提供问题描述并提示生成后继和目标函数的代码。接着,通过单元测试评估目标函数,反馈修订要求。一旦目标函数通过测试,算法就进行有限的广度优先搜索,验证其可靠性和完整性,直到所有函数满足标准。最后,经过验证的函数被纳入经典搜索算法中,从而高效执行全面搜索。
AutoToS的评估
研究人员在多个规划和推理任务中评估了AutoToS,包括BlocksWorld、迷你填字游戏和24点游戏(需要将四个整数通过运算组合成24)。他们使用多种LLM(包括GPT-4o、Llama 2和DeepSeek Coder)分析不同模型规模的性能差异。
研究结果表明,AutoToS使所有模型能够使用反馈识别和修正代码错误。较大的模型一般能够在无反馈的情况下生成准确的目标函数,并且只需极少迭代就能提高后继函数的性能。值得注意的是,虽然GPT-4o-mini较小,但其准确性表现出色。
研究人员指出:“通过仅少量的语言模型调用,我们展示了如何在没有直接人工反馈的情况下获得搜索组件,确保了所有模型和领域的可靠性、完整性以及接近100%的准确性。”与其他方法相比,AutoToS显著减少了对LLM的调用需求。例如,使用传统方法解决24点数据集中的1362个难题大约需要10万次GPT-4调用,而AutoToS平均仅需2.2次调用。
卡茨补充道:“借助这些组件,我们可以利用标准的广度优先搜索算法在不到2秒的时间内,完整且准确地解决所有1362场游戏,这是以往方法无法做到的。”
企业应用的启示
AutoToS在需求规划解决方案的企业环境中展现出巨大潜力。通过降低LLM使用成本并减少对人工输入的依赖,专家可以将精力集中在高层次的规划和目标设定上。
卡茨强调:“我们希望AutoToS将提升规划解决方案的开发和部署,利用语言模型创建可验证的搜索组件,加快开发速度,同时避免使用LLM时常见的问题。”
ToS和AutoToS体现了神经符号人工智能(neuro-symbolic AI),这一混合方法将深度学习与基于规则的系统结合起来,旨在应对复杂挑战。这一方法正日益受到重视,被认为是解决当前人工智能系统局限性的有效途径。
IBM研究员哈沙·科凯尔(Harsha Kokel)表示:“我对混合系统在人工智能中未来的角色没有任何疑虑。当前的语言模型可以被视为混合系统,因为它们执行搜索以确定下一个令牌。”
尽管ToS和AutoToS展现了可观的前景,但仍需进一步探索。
科凯尔和卡茨总结道:“看到自然语言规划的发展,以及LLM如何增强规划工具在决策过程中的整合,这令人激动,为未来智能代理铺平了道路。我们期待探索LLM的世界知识如何丰富现实情况中的规划和行动。”