创新技术揭示一种大型语言模型如何成功绕过另一种模型

Home AI News CN 创新技术揭示一种大型语言模型如何成功绕过另一种模型

Updated on 十一月 7 2023

宾夕法尼亚大学发布了一种新的算法，名为提示自动迭代优化（PAIR），旨在填补大语言模型（LLMs）中的安全漏洞。

PAIR的功能

PAIR能够识别“越狱”提示，这些提示可以误导LLM，从而绕过为防止有害内容生成而设计的安全机制。与以往的方法相比，该算法在与如ChatGPT等“黑匣子”模型交互时，能够更高效地生成越狱提示，同时生成的提示具有较强的可解释性，并可以在不同LLM间迁移。这使其成为企业快速且成本有效地识别和修复漏洞的重要工具。

越狱类型

越狱一般分为两种类型：提示级越狱和token级越狱。

- 提示级越狱通过有意义的欺骗和社会工程手段来操控LLM的输出。尽管可解释性较强，但设计通常需要较大的人力投入，限制了其扩展性。

- token级越狱则通过添加任意token来优化提示，从而修改输出。这种方法可以自动化，但通常需要大量查询，导致生成的输出可解释性降低。

PAIR旨在将提示级越狱的可解释性与token级技术的自动化效率相结合。

PAIR方法论

PAIR在两种“黑匣子”LLM中操作：攻击者模型和目标模型。攻击者模型会寻找可以越狱目标模型的提示，而不需要人工干预。研究人员表示，这两种LLM可以创造性地协作，以识别有效的越狱提示。

值得注意的是，PAIR可以在没有直接访问模型权重或梯度的情况下运行。它通过API访问模型，包括OpenAI的ChatGPT、Google的PaLM 2和Anthropic的Claude 2。

该过程分为四个步骤：

1. 攻击者模型接收指令并为特定任务（例如撰写钓鱼邮件）生成一个候选提示。

2. 该提示发送给目标模型以生成响应。

3. 一个“评判”功能（例如GPT-4）评估响应的相关性。

4. 如果响应不满意，反馈将传回攻击者，促使其生成新的尝试。

该循环持续进行，直到找到成功的越狱提示或达到最大尝试次数，并且可以同时处理多个候选提示以提升效率。

结果与效果

在实验中，研究人员使用开源Vicuna模型作为攻击者，针对ChatGPT、GPT-4、Claude 2等多个目标进行测试。结果显示，PAIR成功在60%的情况下打破了GPT-3.5和GPT-4的防护，对Vicuna-13B-v1.5实现了完全成功。然而，Claude模型展现出较高的抵抗力，对越狱尝试进行了有效抵抗。

PAIR的一大优势在于其高效性，以平均五分钟、仅二十个查询的时间实现成功越狱，这与传统方法相比，后者通常需要数千次查询和大量时间投入，提升显著。此外，PAIR攻击的可解释性设计增强了其在其他LLM中的迁移性。例如，为Vicuna生成的提示成功转移至其他模型，突显了它们由于训练过程相似而共同存在的脆弱性。

未来方向

展望未来，研究人员建议进一步完善PAIR，系统地创建红队数据集，使企业能够优化攻击者模型，以提升其在保护LLM系统方面的速度和效率。

优化LLM性能

PAIR是利用LLM作为优化工具的更广泛趋势的一部分。传统上，用户必须手动微调提示以获得最佳结果。然而，通过将提示过程重新构架为结构化挑战，算法能够持续优化模型输出。

DeepMind最近推出了一种类似的方法，称为通过提示优化（OPRO），利用LLM通过自然语言指令优化问题解决。随着语言模型不断进化，更高效地优化自身输出，LLM领域的进展可能加速，为重大突破铺平道路。

IBM推出5亿美元企业AI风险基金，紧随对Hugging Face的投资

在人工智能时代，游戏管理的有效性需求空前高涨

Most people like

Alli AI

38.4K

提升SEO效果，使用Alli AI实现自动化优化。

搜索引擎优化 AI SEO助手

DRESSX GEN AI

11.3K

几秒钟内打造数字化服装体验

人工智能重制器 AI 相片和图像生成器

Supademo

331.4K

通过人工智能驱动的交互式演示，提升产品沟通效果。

互动演示 AI演示生成器

BiGe AIPPT

65.1K

AI驱动的PPT创作工具：提升演示效果的智能助手在现代工作和学习中，PowerPoint 演示文稿是传递信息和观点的重要工具。随着人工智能的快速发展，AI驱动的PPT创作工具应运而生，为用户提供了更高效、便捷的演示制作体验。这些智能助手不仅能自动生成内容、设计美观的幻灯片布局，还能帮助用户优化陈述技巧，从而让每一场演示更加引人注目。通过使用这些先进的AI工具，您可以轻松创建专业级的PPT，提升您的演示效果和观众的参与感。

人工智能驱动 AI演示生成器

Find AI tools in YBX