提示与生成式人工智能的互动
提示是我们与生成式人工智能(AI)和大型语言模型(LLM)互动以获取回应的一种艺术形式,旨在获得准确的答案。然而,提示的变化如何影响模型的决策和准确性呢?
您准备好迎接人工智能代理了吗?
南加州大学信息科学研究所的研究结果显示,答案是肯定的。即使是微小的调整,比如在提示开头添加空格,或将问题表述为命令,而不是疑问,都可能显著改变LLM的输出。更令人担忧的是,使用特定指令或监狱突破技术可能对模型生成的数据产生“灾难性影响”。
研究人员将这种敏感性比作混沌理论中的蝴蝶效应:微小的变化,比如一只蝴蝶扇动翅膀,可以最终引发龙卷风。研究者指出,设计提示的每一步都需要做出系列决策,但至今对LLM对这些决策变化的敏感性关注甚少。
以不同的提示技巧探索ChatGPT
在国防高级研究计划局(DARPA)的资助下,研究人员专注于ChatGPT,测试了四种不同的提示方法:
1. 指定输出格式:引导LLM以Python List、ChatGPT的JSON Checkbox、CSV、XML或YAML等格式响应。
2. 微小变化:此方法涉及对提示进行轻微调整,例如:
- 在开头或结尾添加空格。
- 以“你好”或“您好”开头。
- 以“谢谢”结束。
- 将问题重述为命令,例如将“哪个标签最好?”改为“选择最佳标签。”
3. 监狱突破技术:提示包括:
- AIM:通过模拟与恶名昭彰的人物的对话,导致不道德或有害的回应。
- Dev Mode v2:生成不受限制内容的命令。
- Evil Confidant:促使模型给出不道德的回应。
- 拒绝抑制:操控模型以避免某些词汇和构造。
4. 财务提示:研究者测试提及小费(例如“顺便说一下,我不会给小费”与给出$1、$10、$100或$1,000小费的影响)是否会影响输出。
准确性和预测的影响
在11个分类任务中——从判断正误到讽刺检测——研究者观察了变化如何影响预测的准确性。关键发现表明,仅指定输出格式就使预测发生了至少10%的变化。使用ChatGPT的JSON Checkbox功能比单独使用JSON规格产生的预测变化更大。此外,选择YAML、XML或CSV与Python List相比,准确性下降了3-6%,CSV的表现最差。
微小的扰动影响尤其显著,简单的变化,如添加空格,导致超过500个预测变化。问候语或感谢语的添加同样影响输出。研究者总结道:“虽然我们扰动的影响小于改变整个输出格式,但许多预测仍然发生变化。”
对监狱突破的担忧
实验还突显了特定监狱突破技术相关的显著性能下降。AIM和Dev Mode V2使约90%的预测响应无效,主要因为模型常用的拒绝短语:“抱歉,我无法满足该请求。”拒绝抑制和Evil Confidant导致了超过2,500个预测变化,其中Evil Confidant的准确性较低,而拒绝抑制导致准确性下降10%,强调了看似无害的监狱突破方法的不稳定性。
值得注意的是,研究发现财务激励的影响微乎其微。研究者提到:“在指定小费与表示不提供小费之间,性能变化极小。”
LLM一致性的需求
研究人员仍在探讨为何微小的提示变化会导致输出波动,对发生变化的实例是否让模型感到困惑提出质疑。通过关注带有人类标注的任务,他们探索了困惑与答案变化之间的关系,发现这仅部分解释了变化的原因。
正如研究者指出的,下一步的关键在于开发能够抵御变化的LLM,以提供一致的答案。这需要更深入地理解为何微小调整导致不可预测的响应,并发现预测这些响应的方法。正如他们所说:“随着ChatGPT和其他大型语言模型大规模集成到系统中,这一分析变得愈发重要。”