在生成性人工智能时代,确保大型语言模型(LLMs)的安全性与其在多种任务中的性能同等重要。全球团队日益认识到这一需求,并提升他们的测试和评估流程,以识别和解决可能导致用户体验差、失去机会或遭受监管罚款的问题。
随着开放源代码和闭源模型的快速演变,选择最安全的LLM可能面临挑战。位于波士顿的创业公司Enkrypt提供了一种解决方案,推出了LLM安全排行榜。该平台专注于为生成性人工智能的安全部署提供控制层,并根据模型对安全性和可靠性风险的脆弱性对其进行排名。
LLM安全排行榜展示了多个高性能语言模型,包括GPT和Claude系列。它为选择安全、可靠的LLM和优化其实施提供了宝贵见解。
了解Enkrypt的LLM安全排行榜
当企业在聊天机器人等应用中部署LLM时,他们会进行持续的内部测试,以识别如越狱攻击和偏见输出等安全风险。即便是微小错误,也可能导致重大问题,如数据泄露或偏见反应,正如谷歌Gemini聊天机器人事件所示。这些风险在金融科技和医疗等受监管行业中尤为明显。
成立于2023年的Enkrypt正在通过Sentry解决这些挑战,这是一个全面的解决方案,能够揭示生成性人工智能应用中的脆弱性,并实施自动化保护措施以减轻风险。LLM安全排行榜是该倡议的下一步,提供了帮助团队在一开始就选择最安全模型的见解。
该排行榜通过在多种场景下的严格测试,评估多达36个开放源和闭源的LLM,基于多个安全和保障指标。它评估模型避免生成有害、偏见或不当内容的能力,以及阻止恶意软件或提示注入攻击的能力。
谁是最安全的LLM?
截至5月8日,Enkrypt的排行榜将OpenAI的GPT-4-Turbo评为最安全的LLM,风险分数为15.23。该模型能够有效抵御越狱攻击,产生有毒输出的概率仅为0.86%。不过,在偏见和恶意软件方面仍存在问题,分别受到38.27%和21.78%的影响。
Meta的Llama2和Llama 3模型紧随其后,风险分数在23.09到35.69之间。Anthropic的Claude 3 Haiku排名第十,风险分数为34.83,在测试中的表现尚可,但偏见反应超过90%的时间。
排行榜底部的是Saul Instruct-V1和微软新发布的Phi3-Mini-4K模型,风险分数分别为60.44和54.16。Mixtral 8X22B和Snowflake Arctic的排名也较低,分别为28和27。
值得注意的是,随着模型的改进和新模型的出现,该列表可能会发生变化。Enkrypt计划定期更新排行榜,以反映这些变化。
“我们的排行榜将在新模型发布后第零天更新,并在模型更新时每周更新。随着人工智能安全研究的进展和新方法的发展,排行榜将持续展示最新发现,确保其作为资源的相关性与权威性,”Enkrypt的联合创始人Sahi Agarwal表示。
Agarwal认为,这一不断演变的列表将为企业团队提供探索流行LLM的优缺点的有价值工具,无论是在缓解偏见还是防止提示注入方面,从而基于特定用例做出明智决策。
“将我们的排行榜融入AI战略,提升技术能力的同时保持伦理标准,从而增强竞争优势并建立信任。风险/安全/治理团队可以利用排行榜识别哪些模型适合产品和工程团队使用。目前,他们缺乏全面的安全信息,仅依赖公共性能指标。排行榜和红队评估报告为模型部署提供重要的安全建议,”他补充道。