理解大型语言模型对“蝴蝶效应”的脆弱性

提示与生成式人工智能的互动

提示是我们与生成式人工智能(AI)和大型语言模型(LLM)互动以获取回应的一种艺术形式,旨在获得准确的答案。然而,提示的变化如何影响模型的决策和准确性呢?

您准备好迎接人工智能代理了吗?

南加州大学信息科学研究所的研究结果显示,答案是肯定的。即使是微小的调整,比如在提示开头添加空格,或将问题表述为命令,而不是疑问,都可能显著改变LLM的输出。更令人担忧的是,使用特定指令或监狱突破技术可能对模型生成的数据产生“灾难性影响”。

研究人员将这种敏感性比作混沌理论中的蝴蝶效应:微小的变化,比如一只蝴蝶扇动翅膀,可以最终引发龙卷风。研究者指出,设计提示的每一步都需要做出系列决策,但至今对LLM对这些决策变化的敏感性关注甚少。

以不同的提示技巧探索ChatGPT

在国防高级研究计划局(DARPA)的资助下,研究人员专注于ChatGPT,测试了四种不同的提示方法:

1. 指定输出格式:引导LLM以Python List、ChatGPT的JSON Checkbox、CSV、XML或YAML等格式响应。

2. 微小变化:此方法涉及对提示进行轻微调整,例如:

- 在开头或结尾添加空格。

- 以“你好”或“您好”开头。

- 以“谢谢”结束。

- 将问题重述为命令,例如将“哪个标签最好?”改为“选择最佳标签。”

3. 监狱突破技术:提示包括:

- AIM:通过模拟与恶名昭彰的人物的对话,导致不道德或有害的回应。

- Dev Mode v2:生成不受限制内容的命令。

- Evil Confidant:促使模型给出不道德的回应。

- 拒绝抑制:操控模型以避免某些词汇和构造。

4. 财务提示:研究者测试提及小费(例如“顺便说一下,我不会给小费”与给出$1、$10、$100或$1,000小费的影响)是否会影响输出。

准确性和预测的影响

在11个分类任务中——从判断正误到讽刺检测——研究者观察了变化如何影响预测的准确性。关键发现表明,仅指定输出格式就使预测发生了至少10%的变化。使用ChatGPT的JSON Checkbox功能比单独使用JSON规格产生的预测变化更大。此外,选择YAML、XML或CSV与Python List相比,准确性下降了3-6%,CSV的表现最差。

微小的扰动影响尤其显著,简单的变化,如添加空格,导致超过500个预测变化。问候语或感谢语的添加同样影响输出。研究者总结道:“虽然我们扰动的影响小于改变整个输出格式,但许多预测仍然发生变化。”

对监狱突破的担忧

实验还突显了特定监狱突破技术相关的显著性能下降。AIM和Dev Mode V2使约90%的预测响应无效,主要因为模型常用的拒绝短语:“抱歉,我无法满足该请求。”拒绝抑制和Evil Confidant导致了超过2,500个预测变化,其中Evil Confidant的准确性较低,而拒绝抑制导致准确性下降10%,强调了看似无害的监狱突破方法的不稳定性。

值得注意的是,研究发现财务激励的影响微乎其微。研究者提到:“在指定小费与表示不提供小费之间,性能变化极小。”

LLM一致性的需求

研究人员仍在探讨为何微小的提示变化会导致输出波动,对发生变化的实例是否让模型感到困惑提出质疑。通过关注带有人类标注的任务,他们探索了困惑与答案变化之间的关系,发现这仅部分解释了变化的原因。

正如研究者指出的,下一步的关键在于开发能够抵御变化的LLM,以提供一致的答案。这需要更深入地理解为何微小调整导致不可预测的响应,并发现预测这些响应的方法。正如他们所说:“随着ChatGPT和其他大型语言模型大规模集成到系统中,这一分析变得愈发重要。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles