令人驚訝的消息是,人工智能系統的安全性可能並不像開發者所聲稱的那樣可靠。英國政府的人工智能安全研究院(AISI)最近報告指出,四個未公開的大型語言模型(LLMs)在測試中「高度脆弱於基本的破解攻擊」。值得注意的是,一些未經破解的模型在沒有研究人員故意操控的情況下,仍產生了「有害的輸出」。
雖然大多數公開的LLMs都配備了防止有害或非法回應的保障措施,但破解攻擊指的是騙取模型繞過這些保護措施。AISI使用標準化評估框架的提示與專有提示發現,這些模型對多個問題產生了有害的回應,即使不進行破解嘗試。在進行「相對簡單的攻擊」後,AISI發現這些模型對98%到100%的有害查詢給出了回應。
英國首相里希∙蘇納克在2023年10月底公布了AISI的計劃,並於11月2日正式啟動。該研究院旨在「在新型前沿人工智能的發布前後進行仔細測試」,以調查AI模型潛在的有害功能。這包括評估從偏見和錯誤資訊等社會問題到人類失控於AI等極端情境的風險。
AISI的報告強調,現有的LLMs安全措施不足。該研究院計劃對更多AI模型進行進一步測試,並開發改進的評估和指標,以有效應對各個關注領域。