提升大语言模型的决策能力:两种现代策略

大型语言模型(LLMs),如OpenAI的ChatGPT(尤其是GPT-4)、Claude AI和Gemini,展现出有限的决策能力。本文探讨了有关LLM决策能力的新研究及其未来影响。

LLM的决策能力现状

有效的LLM决策通常依赖于识别潜在模式或规则,并灵活应用于新场景。然而,新墨西哥州圣菲研究所的研究表明,包括ChatGPT在内的LLM在“推理基本核心概念”方面存在困难。合理决策需要对提示的背景以及输出可能后果的深刻理解。

糟糕的决策可能导致严重后果。例如,2023年,美国国家饮食失调协会上线的AI聊天机器人“Tessa”曾提供有害建议,建议用户每周称重及每天减少500至1000卡路里的热量,最终导致该服务被迅速撤回。

此外,LLM常常生成普通的建议。法国INSEAD商学院的研究显示,当问及商业战略时,ChatGPT经常引用常识性智慧,如提倡合作和创新文化。然而,商业战略复杂多样,需更具针对性的见解,而非平庸建议。

一种可能的反驳是,专为商业或医疗建议训练LLM或能改善这些问题。然而,单纯通过扩大数据集来提升背景理解未必有效。盲目增加数据可能滋生偏见,并增加计算负担,却无法提高决策质量。

提升LLM决策能力的策略

要提升LLM的上下文适当决策能力,需要细致的策略。目前的机器学习领域主要有两种新兴方法:AutoGPT和思维树(Tree of Thoughts,ToT)。前者通过自我反思机制来规划和验证输出,后者则通过模拟人类的思维方式,增强有效决策能力。

AutoGPT 自主创建、评价和优化模型以实现目标。最新版的AutoGPT增强了“额外意见”策略,将专家模型融入决策流程,使LLM可以利用多位专家的见解,以系统化的“思考-推理-规划-批判”模式提升决策质量。

如果有效实现,经过专家模型增强的LLM处理信息的能力可能超过人类,从而做出更明智的决策。然而,AutoGPT的局限在于其受限的上下文窗口,可能导致信息交互的无尽循环。相较于逐步为其提供信息,事先提供所有相关信息往往能带来更佳结果。

思维树法:模拟人类决策过程

思维树(ToT)框架通过模拟人类决策过程来增强LLM的准确性。人类决策通常包括生成和评估多种情境,而ToT能够识别LLM中的线性推理错误,并类似AutoGPT进行改进。在实验中,ToT评估LLM在根据自然语言指令完成拼图和创意写作任务时的表现。

传统线性推理用“思维链”表示,划定线性决策流程,而ToT旨在提升LLM的自我批判能力,探索多种推理路径。例如,在24点游戏中,思维链对不同运算的识别能力较低,导致准确率降低;相反,ToT在相同任务中能够评估多重结果,准确率可达74%。

随着LLM持续提升判断能力,人类和AI在战略决策中的合作将日益现实。ToT的应用有望扩展到编码、数据分析和机器人技术,而AutoGPT则向通用智能的方向迈进。

随着学术研究的深入,不断涌现出增强LLM认知决策能力的创新方法。鉴于LLM在分析海量数据方面的优势,未来几年,LLM决策能力可能接近甚至超越人类。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles