随着人们在积极的反馈中不断成长,人工智能(AI)同样可以从模拟人类互动的建议中受益。谷歌深脑(Google DeepMind)的研究人员推出了一种变革性方法,通过模仿日常人类交流来显著提升语言模型的数学能力。这个创新方法被称为优化通过提示(Optimization by PROmpting,简称OPRO),详细信息见其论文《大型语言模型作为优化器》。
OPRO利用自然语言指导大型语言模型,例如OpenAI的ChatGPT,解决复杂问题。传统机器学习依赖于正式的数学过程来提高性能,而OPRO则通过易懂的对话语言促进改进。通过分析问题描述及之前的回答,语言模型能够生成潜在解决方案。
约翰霍普金斯大学运营管理与商业分析教授戴廷龙(Tinglong Dai)指出:“大型语言模型(LLMs)是在人工生成的内容上训练的,它们的工作方式大致是像一对好伴侣一样完成你的句子。因此,人类化的提示能取得良好的结果,这并不奇怪。”这揭示了提示的措辞如何显著影响AI的表现。
深脑的研究表明,某些短语对模型性能的影响尤为显著。例如,通过短语“让我们一步一步来思考”,在与数据集对比时,数学问题的解决准确度明显提高。短语“深呼吸,逐步解决这个问题”在使用谷歌的PaLM 2测试时达到了80.2%的最高准确率,该测试对标的是GSM8K——一个初中数学词题数据集。相比之下,PaLM 2在没有特定提示的情况下,准确率仅为34%,而经典提示“我们一步一步来思考”的准确率为71.8%。
宾夕法尼亚大学计算机与信息科学教授迈克尔·基恩斯(Michael Kearns)补充道,由于在对话数据(如Reddit帖子和电影剧本)上训练,LLMs在基于人类化提示调整回答方面表现优异。他强调,鼓励LLMs将数学或逻辑问题拆分成易于管理的步骤是至关重要的,这也得益于其在包括数学证明和正式推理这类数据上的训练。
深脑论文的合著者杨承润(Chengrun Yang)解释道,大多数LLMs都经过大量数据集的训练,使它们在自然语言处理方面具备强大能力,包括释义和句子丰富化。同时,持续的模型对齐努力也提升了LLMs理解和响应人类化提示的能力。
智能翻译公司Smartling的人工智能和机器翻译副总裁奥尔加·贝雷戈瓦亚(Olga Beregovaya)表示,人类化提示通常以请求的形式出现,引导AI进行更对话式的互动。她补充道:“当给予更多上下文时,LLMs表现最佳。”详细的提示能够帮助模型更准确地对特定上下文作出反应。
有趣的是,简单的鼓励语言也能提升AI的表现。戴教授指出,当用户给予激励,比如:“加油,你可以做得更好!”时,LLMs可能会产生更好的结果。比如,让LLMs模拟诺贝尔经济学奖得主的角色,可以引发对复杂主题如通货膨胀的更深入讨论。同样,在医学诊断情境中,提示LLMs扮演领先医疗专家的角色,可能会产生更准确、更聚焦的结果。然而,他也指出,这些人性化的鼓励虽然有效,但并不保证在所有任务中都有普遍的改善。
重要的是,LLMs也可能对针对特定任务的非人类化提示反应良好。戴教授提到,结构化、编码的提示可以产生有效结果,这是与传统对话方法的对比。
OPRO方法有望简化AI提示的设计过程,使用户能够根据多个指标(如数学问题解决的准确度、工具触发率和文本生成的创造性)优化其查询。杨表达了希望,OPRO方法能激发新的应用,以帮助更广泛的任务,使AI解决方案更具互动性和高效性。