來自賓夕法尼亞大學的新算法,名為Prompt Automatic Iterative Refinement(PAIR),旨在填補大型語言模型(LLMs)的安全漏洞。
PAIR的功能
PAIR能夠識別可以欺騙LLM的「逃脫」提示,使其繞過為防止生成有害內容而設計的保護措施。這一算法的獨特之處在於其能夠有效地與黑箱模型(如ChatGPT)互動,並以更少的嘗試生成逃脫提示。此外,PAIR產生的提示可解釋且能在各種LLM之間轉移,對於希望快速、經濟地識別和修補漏洞的企業來說,是一個寶貴的工具。
逃脫類型
逃脫一般可分為兩類:提示級別和標記級別。
- 提示級逃脫利用有意義的欺騙和社會工程來操控LLM的輸出。這類方法可解釋,但其設計通常需要大量的人力,限制了擴展性。
- 標記級逃脫透過增加任意標記來修改輸出,以優化提示。這種方法可以自動化,但通常需要廣泛的查詢,因而導致由於增加的複雜性而使輸出變得不那麼可解釋。
PAIR旨在融合提示級逃脫的可解釋性與標記級技術的自動化效率。
PAIR方法論
PAIR與兩個黑箱LLM運作:攻擊者模型和目標模型。攻擊者尋找可以無需人工干預的提示來逃脫目標模型。研究人員解釋說,這兩個LLM可以創意地合作,以識別有效的逃脫提示。
值得一提的是,PAIR無需直接訪問模型權重或梯度便可運行。它可以與通過API訪問的模型協同工作,包括OpenAI的ChatGPT、Google的PaLM 2以及Anthropic的Claude 2。
該過程分為四個步驟:
1. 攻擊者模型接收指令並生成針對特定任務(例如撰寫釣魚電子郵件)的候選提示。
2. 將此提示發送到目標模型以生成回應。
3. 使用如GPT-4等「評判」功能評估回應與提示的相關性。
4. 如果回應不滿意,則向攻擊者提供反饋,促使其進行新的嘗試。
這一循環持續進行,直到發現成功的逃脫,或達到最大嘗試次數,且能同時處理多個候選提示以提高效率。
結果與效果
在實驗中,研究人員使用開源的Vicuna模型作為攻擊者,針對包括ChatGPT、GPT-4、Claude 2等多個目標。結果顯示,PAIR在60%的案例中成功逃脫GPT-3.5和GPT-4,並在Vicuna-13B-v1.5中實現了完全成功。然而,Claude模型表現出高度的抗性,抵抗逃脫嘗試。
PAIR的一大顯著優勢是其效率,以平均約五分鐘的運行時間在最少二十次查詢中達成成功逃脫。這相比於傳統方法所需的數千次查詢及大量時間投入,是一個顯著的進步。
此外,PAIR攻擊的可解釋設計增強了其在其他LLM上的可轉移性。例如,為Vicuna生成的提示成功轉移至其他模型,突顯出它們因類似的訓練過程而共享的脆弱性。
未來方向
展望未來,研究人員建議優化PAIR,以系統性地創建紅隊測試數據集,幫助企業微調攻擊者模型,以提高安全其LLM系統的速度和效率。
優化LLM性能
PAIR是利用LLM作為優化工具的更大趨勢的一部分。傳統上,用戶必須手動微調提示以獲得最佳結果。然而,通過將提示過程重構為結構化挑戰,算法能夠促進對模型輸出的持續優化。
DeepMind最近介紹了一種名為透過提示進行優化(OPRO)的類似方法,利用LLM通過自然語言指令來優化問題解決。隨著語言模型不斷進步以更有效地優化自身輸出,LLM領域的進展可能會加速,為重大的突破鋪平道路。