创新技术揭示一种大型语言模型如何成功绕过另一种模型

宾夕法尼亚大学发布了一种新的算法,名为提示自动迭代优化(PAIR),旨在填补大语言模型(LLMs)中的安全漏洞。

PAIR的功能

PAIR能够识别“越狱”提示,这些提示可以误导LLM,从而绕过为防止有害内容生成而设计的安全机制。与以往的方法相比,该算法在与如ChatGPT等“黑匣子”模型交互时,能够更高效地生成越狱提示,同时生成的提示具有较强的可解释性,并可以在不同LLM间迁移。这使其成为企业快速且成本有效地识别和修复漏洞的重要工具。

越狱类型

越狱一般分为两种类型:提示级越狱和token级越狱。

- 提示级越狱通过有意义的欺骗和社会工程手段来操控LLM的输出。尽管可解释性较强,但设计通常需要较大的人力投入,限制了其扩展性。

- token级越狱则通过添加任意token来优化提示,从而修改输出。这种方法可以自动化,但通常需要大量查询,导致生成的输出可解释性降低。

PAIR旨在将提示级越狱的可解释性与token级技术的自动化效率相结合。

PAIR方法论

PAIR在两种“黑匣子”LLM中操作:攻击者模型和目标模型。攻击者模型会寻找可以越狱目标模型的提示,而不需要人工干预。研究人员表示,这两种LLM可以创造性地协作,以识别有效的越狱提示。

值得注意的是,PAIR可以在没有直接访问模型权重或梯度的情况下运行。它通过API访问模型,包括OpenAI的ChatGPT、Google的PaLM 2和Anthropic的Claude 2。

该过程分为四个步骤:

1. 攻击者模型接收指令并为特定任务(例如撰写钓鱼邮件)生成一个候选提示。

2. 该提示发送给目标模型以生成响应。

3. 一个“评判”功能(例如GPT-4)评估响应的相关性。

4. 如果响应不满意,反馈将传回攻击者,促使其生成新的尝试。

该循环持续进行,直到找到成功的越狱提示或达到最大尝试次数,并且可以同时处理多个候选提示以提升效率。

结果与效果

在实验中,研究人员使用开源Vicuna模型作为攻击者,针对ChatGPT、GPT-4、Claude 2等多个目标进行测试。结果显示,PAIR成功在60%的情况下打破了GPT-3.5和GPT-4的防护,对Vicuna-13B-v1.5实现了完全成功。然而,Claude模型展现出较高的抵抗力,对越狱尝试进行了有效抵抗。

PAIR的一大优势在于其高效性,以平均五分钟、仅二十个查询的时间实现成功越狱,这与传统方法相比,后者通常需要数千次查询和大量时间投入,提升显著。此外,PAIR攻击的可解释性设计增强了其在其他LLM中的迁移性。例如,为Vicuna生成的提示成功转移至其他模型,突显了它们由于训练过程相似而共同存在的脆弱性。

未来方向

展望未来,研究人员建议进一步完善PAIR,系统地创建红队数据集,使企业能够优化攻击者模型,以提升其在保护LLM系统方面的速度和效率。

优化LLM性能

PAIR是利用LLM作为优化工具的更广泛趋势的一部分。传统上,用户必须手动微调提示以获得最佳结果。然而,通过将提示过程重新构架为结构化挑战,算法能够持续优化模型输出。

DeepMind最近推出了一种类似的方法,称为通过提示优化(OPRO),利用LLM通过自然语言指令优化问题解决。随着语言模型不断进化,更高效地优化自身输出,LLM领域的进展可能加速,为重大突破铺平道路。

Most people like

Find AI tools in YBX