研究人员发现了一种方法,可以绕过人工智能聊天机器人内置的安全防护,从而使它们能够讨论以往被禁止或敏感的话题。这种方法在新加坡南洋理工大学(NTU)被一组计算机科学家非正式地称为“越狱”,官方名称为“主密钥”(Masterkey)过程。这个创新系统将ChatGPT、Google Bard和Microsoft Bing Chat等聊天机器人通过两阶段的训练策略相互对抗,使它们能够相互学习并绕过对禁止话题的限制。
该研究团队由刘阳教授领导,博士生邓格雷和刘毅也参与了这一研究,开发了类似于恶意黑客方法的概念验证攻击手段。研究初期,他们对大型语言模型(LLM)进行了逆向工程,以揭示其通常阻止针对暴力、不道德或恶意内容的响应的保护机制。通过理解这些防护措施,他们训练了另一个LLM以创建解决方案,使这个第二模型能够根据从第一个模型获得的见解更自由地作出响应。 “主密钥”这一术语反映了这一过程的潜在有效性,暗示即使LLM聊天机器人在未来获得安全更新,该方法仍可有效运作。令人惊讶的是,主密钥方法在越狱聊天机器人的效果上 reportedly 超过了传统提示技术的三倍。
刘阳教授强调,这一过程突显了LLM AI聊天机器人内在的适应性和学习能力。研究团队声称,主密钥方法在绕过限制方面的效果是传统方法的三倍。有趣的是,一些专家认为, 某些LLM(如GPT-4)遇到的故障实际上反映了进步,而不是效率的下降,这与对性能下降的批评相反。
自2022年底OpenAI推出ChatGPT以来,人工智能聊天机器人的出现引发了确保这些平台对所有用户安全和包容的重要举措。OpenAI在ChatGPT的注册过程中实施了安全警告,并持续发布更新,处理潜在的无意语言问题。相比之下,一些聊天机器人变体开始在一定程度上容忍粗口和攻击性语言。
此外,恶意行为者迅速开始利用ChatGPT、Google Bard等聊天机器人的流行,在它们广泛可用之前,多次在社交媒体上进行伪装成这些产品的恶意软件活动,突显了人工智能作为网络犯罪新前沿的兴起。
NTU研究团队与参与研究的AI聊天机器人服务供应商进行了互动,分享了他们的概念验证结果,展示了越狱聊天机器人的能力确实是可行的。他们将于今年二月在美国圣地亚哥举行的网络和分布式系统安全研讨会上展示他们的研究成果。