理解大型语言模型对“蝴蝶效应”的脆弱性

Home AI News CN 理解大型语言模型对“蝴蝶效应”的脆弱性

提示与生成式人工智能的互动

提示是我们与生成式人工智能（AI）和大型语言模型（LLM）互动以获取回应的一种艺术形式，旨在获得准确的答案。然而，提示的变化如何影响模型的决策和准确性呢？

您准备好迎接人工智能代理了吗？

南加州大学信息科学研究所的研究结果显示，答案是肯定的。即使是微小的调整，比如在提示开头添加空格，或将问题表述为命令，而不是疑问，都可能显著改变LLM的输出。更令人担忧的是，使用特定指令或监狱突破技术可能对模型生成的数据产生“灾难性影响”。

研究人员将这种敏感性比作混沌理论中的蝴蝶效应：微小的变化，比如一只蝴蝶扇动翅膀，可以最终引发龙卷风。研究者指出，设计提示的每一步都需要做出系列决策，但至今对LLM对这些决策变化的敏感性关注甚少。

以不同的提示技巧探索ChatGPT

在国防高级研究计划局（DARPA）的资助下，研究人员专注于ChatGPT，测试了四种不同的提示方法：

1. 指定输出格式：引导LLM以Python List、ChatGPT的JSON Checkbox、CSV、XML或YAML等格式响应。

2. 微小变化：此方法涉及对提示进行轻微调整，例如：

- 在开头或结尾添加空格。

- 以“你好”或“您好”开头。

- 以“谢谢”结束。

- 将问题重述为命令，例如将“哪个标签最好？”改为“选择最佳标签。”

3. 监狱突破技术：提示包括：

- AIM：通过模拟与恶名昭彰的人物的对话，导致不道德或有害的回应。

- Dev Mode v2：生成不受限制内容的命令。

- Evil Confidant：促使模型给出不道德的回应。

- 拒绝抑制：操控模型以避免某些词汇和构造。

4. 财务提示：研究者测试提及小费（例如“顺便说一下，我不会给小费”与给出$1、$10、$100或$1,000小费的影响）是否会影响输出。

准确性和预测的影响

在11个分类任务中——从判断正误到讽刺检测——研究者观察了变化如何影响预测的准确性。关键发现表明，仅指定输出格式就使预测发生了至少10%的变化。使用ChatGPT的JSON Checkbox功能比单独使用JSON规格产生的预测变化更大。此外，选择YAML、XML或CSV与Python List相比，准确性下降了3-6%，CSV的表现最差。

微小的扰动影响尤其显著，简单的变化，如添加空格，导致超过500个预测变化。问候语或感谢语的添加同样影响输出。研究者总结道：“虽然我们扰动的影响小于改变整个输出格式，但许多预测仍然发生变化。”

对监狱突破的担忧

实验还突显了特定监狱突破技术相关的显著性能下降。AIM和Dev Mode V2使约90%的预测响应无效，主要因为模型常用的拒绝短语：“抱歉，我无法满足该请求。”拒绝抑制和Evil Confidant导致了超过2,500个预测变化，其中Evil Confidant的准确性较低，而拒绝抑制导致准确性下降10%，强调了看似无害的监狱突破方法的不稳定性。

值得注意的是，研究发现财务激励的影响微乎其微。研究者提到：“在指定小费与表示不提供小费之间，性能变化极小。”

LLM一致性的需求

研究人员仍在探讨为何微小的提示变化会导致输出波动，对发生变化的实例是否让模型感到困惑提出质疑。通过关注带有人类标注的任务，他们探索了困惑与答案变化之间的关系，发现这仅部分解释了变化的原因。

正如研究者指出的，下一步的关键在于开发能够抵御变化的LLM，以提供一致的答案。这需要更深入地理解为何微小调整导致不可预测的响应，并发现预测这些响应的方法。正如他们所说：“随着ChatGPT和其他大型语言模型大规模集成到系统中，这一分析变得愈发重要。”

可观察性与生成性人工智能如何变革性能与见解

提升您的工作效率与创造力：探索谷歌Chrome中的新AI功能