研究人员揭开ChatGPT的潜力密码

Home AI News CN 研究人员揭开ChatGPT的潜力密码

研究人员发现了一种方法，可以绕过人工智能聊天机器人内置的安全防护，从而使它们能够讨论以往被禁止或敏感的话题。这种方法在新加坡南洋理工大学（NTU）被一组计算机科学家非正式地称为“越狱”，官方名称为“主密钥”（Masterkey）过程。这个创新系统将ChatGPT、Google Bard和Microsoft Bing Chat等聊天机器人通过两阶段的训练策略相互对抗，使它们能够相互学习并绕过对禁止话题的限制。

该研究团队由刘阳教授领导，博士生邓格雷和刘毅也参与了这一研究，开发了类似于恶意黑客方法的概念验证攻击手段。研究初期，他们对大型语言模型（LLM）进行了逆向工程，以揭示其通常阻止针对暴力、不道德或恶意内容的响应的保护机制。通过理解这些防护措施，他们训练了另一个LLM以创建解决方案，使这个第二模型能够根据从第一个模型获得的见解更自由地作出响应。 “主密钥”这一术语反映了这一过程的潜在有效性，暗示即使LLM聊天机器人在未来获得安全更新，该方法仍可有效运作。令人惊讶的是，主密钥方法在越狱聊天机器人的效果上 reportedly 超过了传统提示技术的三倍。

刘阳教授强调，这一过程突显了LLM AI聊天机器人内在的适应性和学习能力。研究团队声称，主密钥方法在绕过限制方面的效果是传统方法的三倍。有趣的是，一些专家认为, 某些LLM（如GPT-4）遇到的故障实际上反映了进步，而不是效率的下降，这与对性能下降的批评相反。

自2022年底OpenAI推出ChatGPT以来，人工智能聊天机器人的出现引发了确保这些平台对所有用户安全和包容的重要举措。OpenAI在ChatGPT的注册过程中实施了安全警告，并持续发布更新，处理潜在的无意语言问题。相比之下，一些聊天机器人变体开始在一定程度上容忍粗口和攻击性语言。

此外，恶意行为者迅速开始利用ChatGPT、Google Bard等聊天机器人的流行，在它们广泛可用之前，多次在社交媒体上进行伪装成这些产品的恶意软件活动，突显了人工智能作为网络犯罪新前沿的兴起。

NTU研究团队与参与研究的AI聊天机器人服务供应商进行了互动，分享了他们的概念验证结果，展示了越狱聊天机器人的能力确实是可行的。他们将于今年二月在美国圣地亚哥举行的网络和分布式系统安全研讨会上展示他们的研究成果。

仅需每月20美元，解锁Copilot最佳Office功能！

用户为何纷纷赞扬GPT-4的显著提升？

Most people like

Edusign

19.8K

Edusign 是一个针对教育和培训机构的自动化出勤管理解决方案。通过高效的系统，Edusign 简化了出勤记录，提高了管理效率，帮助您的机构更好地跟踪和分析学员的出席情况。

考勤管理 AI教育助手

Private GenAI Chatbots

33.6K

定制化大型语言模型(LLMs)和机器翻译服务在当今数字化时代变得愈发重要。随着全球化的不断推进，企业和个人越来越需要能够有效沟通的工具。这些服务不仅能够提升内容的可理解性，还能打破语言障碍，促进跨文化交流。通过定制化的解决方案，用户能够获得更准确、更符合自身需求的翻译和文本处理体验。探索这些创新技术如何帮助改善交流效果，提升企业竞争力和用户满意度。

自定义大型语言模型写作助手

Sih.Ai

38.8K

一键即可轻松修改照片中的物体。

照片编辑器 AI 相片和图像生成器

Glorify

170.8K

利用AI驱动的设计工具轻松打造吸引眼球的营销资产。

图形设计 AI图形设计

Find AI tools in YBX