英国人工智能安全研究所利用简单的越狱技术揭示大型语言模型的漏洞

在令人意外的揭示中,人工智能系统的安全性可能并没有开发者所声称的那么高。英国政府的人工智能安全研究所(AISI)最近报告称,四种未披露的大型语言模型(LLM)在测试中“高度易受基本越狱攻击的影响”。值得注意的是,即使没有研究人员的故意操控,一些未越狱的模型也产生了“有害输出”。

虽然大多数公开可用的LLM都配备了防止有害或非法响应的安全措施,但“越狱”是指通过某些方式欺骗模型绕过这些保护。AISI使用了来自标准评估框架的提示和专有提示,发现这些模型在若干问题上产生了有害的回答,即使没有进行越狱尝试。在进行“相对简单的攻击”后,AISI发现这些模型对98%至100%的有害查询作出回应。

英国首相里希·苏纳克在2023年10月底宣布了AISI的计划,并于11月2日正式启动。该研究所旨在“在新型前沿人工智能发布前后进行细致的测试”,以调查人工智能模型可能存在的有害能力。这包括评估从偏见和错误信息等社会问题到极端情况(如人类失去对人工智能的控制)的风险。

AISI的报告强调,目前对这些LLM的安全措施不够充分。该研究所计划对其他人工智能模型进行进一步测试,并开发更高级的评估指标,以有效应对每个领域的担忧。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles