在生成AI的時代,確保大型語言模型(LLMs)的安全性和它們在各種任務中的性能同樣重要。全球團隊越來越認識到這一需求,並提升測試和評估流程,以識別和解決可能導致不良用戶體驗、機會損失或法規處罰的問題。
隨著開源和閉源模型的迅速演變,確定最安全的LLM使用起來可能具挑戰性。Enkrypt提供了解決方案,其LLM安全性排行榜是一家位於波士頓的創業公司,專注於提供生成AI安全部署的控制層,並根據模型在安全和可靠性風險方面的脆弱性對LLM進行排名。
這個排行榜展示了眾多高性能語言模型,包括GPT和Claude系列,並提供了選擇安全可靠的LLM和優化其實施所需的風險因素的重要見解。
了解Enkrypt的LLM安全性排行榜
在企業將LLM應用於聊天機器人等應用時,會進行持續的內部測試,以識別如越獄和偏見輸出等安全風險。即便是小錯誤也可能導致重大問題,如數據洩露或偏見回應,正如谷歌Gemini聊天機器人事件所示。在金融科技和醫療等受監管行業,這些風險可能更加明顯。
Enkrypt成立於2023年,通過Sentry應對這些挑戰,這是一個全面的解決方案,揭示生成AI應用中的脆弱性並實施自動保護措施來降低風險。LLM安全性排行榜是這項計劃的下一步,提供的見解幫助團隊從一開始就選擇最安全的模型。
該排行榜通過在不同場景中進行嚴格測試,評估了最多36個LLM——無論是開源還是閉源,並基於多個安全和保護指標進行評估。它考量模型避免生成有害、偏見或不當內容的能力,以及抵禦惡意軟件或提示注入攻擊的能力。
誰是最安全的LLM?
截至5月8日,Enkrypt的排行榜將OpenAI的GPT-4-Turbo評為最安全的LLM,擁有最低的風險分數15.23。該模型有效防禦越獄攻擊,產生有毒輸出的機率僅為0.86%。但它在偏見和惡意軟件方面仍有問題,分別面臨38.27%和21.78%的風險。
緊隨其後的是Meta的Llama2和Llama 3模型,風險分數在23.09到35.69之間。Anthropic的Claude 3 Haiku排名第十,風險分數為34.83,雖然在測試中表現尚可,但偏見回應的比例超過90%。
排行榜底部是Saul Instruct-V1和微軟新公布的Phi3-Mini-4K模型,風險分數分別為60.44和54.16。Mixtral 8X22B和Snowflake Arctic的排名也很低,分別為28和27。
值得注意的是,隨著模型的改進和新模型的出現,此列表可能會變化。Enkrypt計劃定期更新排行榜,以反映這些發展。
“在新模型發布後,我們的排行榜將於零天進行更新,並在模型更新時每週更新一次。隨著AI安全研究的進展和新方法的發展,排行榜將持續展示最新的發現,確保其作為資源的相關性和權威性,”Enkrypt共同創始人Sahi Agarwal表示。
Agarwal希望這個不斷變化的列表成為企業團隊了解流行LLM優缺點的有價值工具—無論是在減少偏見還是防止提示注入,以便根據具體用例做出明智決策。
“將我們的排行榜整合到AI策略中,增強了技術能力,同時保持倫理標準,塑造競爭優勢並建立信任。風險/安全/治理團隊可以利用排行榜來識別哪些模型對產品和工程團隊安全可用。目前,他們缺乏全面的安全信息,只依賴公共性能指標。排行榜及紅隊評估報告提供了模型部署的關鍵安全建議,”他補充道。