英国人工智能安全研究所利用简单的越狱技术揭示大型语言模型的漏洞

Home AI News CN 英国人工智能安全研究所利用简单的越狱技术揭示大型语言模型的漏洞

在令人意外的揭示中，人工智能系统的安全性可能并没有开发者所声称的那么高。英国政府的人工智能安全研究所（AISI）最近报告称，四种未披露的大型语言模型（LLM）在测试中“高度易受基本越狱攻击的影响”。值得注意的是，即使没有研究人员的故意操控，一些未越狱的模型也产生了“有害输出”。

虽然大多数公开可用的LLM都配备了防止有害或非法响应的安全措施，但“越狱”是指通过某些方式欺骗模型绕过这些保护。AISI使用了来自标准评估框架的提示和专有提示，发现这些模型在若干问题上产生了有害的回答，即使没有进行越狱尝试。在进行“相对简单的攻击”后，AISI发现这些模型对98%至100%的有害查询作出回应。

英国首相里希·苏纳克在2023年10月底宣布了AISI的计划，并于11月2日正式启动。该研究所旨在“在新型前沿人工智能发布前后进行细致的测试”，以调查人工智能模型可能存在的有害能力。这包括评估从偏见和错误信息等社会问题到极端情况（如人类失去对人工智能的控制）的风险。

AISI的报告强调，目前对这些LLM的安全措施不够充分。该研究所计划对其他人工智能模型进行进一步测试，并开发更高级的评估指标，以有效应对每个领域的担忧。

告别ChatGPT的模仿斯嘉丽·约翰逊声音

Slack 利用聊天数据提升机器学习模型，优化用户体验

Most people like

Moveo AI

19.1K

通过采用先进的人工智能技术，实现自动化客户支持流程。

人工智能代理 AI聊天机器人

FilterPixel

45K

在寻找最迅速的AI照片筛选软件吗？无论您使用的是Windows还是Mac系统，这款软件都能为您提供快速、高效的照片管理体验。

照片筛选软件 AI摄影

Writer

1.6M

Writer是一个专为推动企业增长而设计的生成性AI平台。

企业生成性人工智能其他

Private GenAI Chatbots

33.6K

定制化大型语言模型(LLMs)和机器翻译服务在当今数字化时代变得愈发重要。随着全球化的不断推进，企业和个人越来越需要能够有效沟通的工具。这些服务不仅能够提升内容的可理解性，还能打破语言障碍，促进跨文化交流。通过定制化的解决方案，用户能够获得更准确、更符合自身需求的翻译和文本处理体验。探索这些创新技术如何帮助改善交流效果，提升企业竞争力和用户满意度。

自定义大型语言模型写作助手

Find AI tools in YBX