突破性技術顯示如何讓一個大型語言模型成功繞過另一個模型

來自賓夕法尼亞大學的新算法,名為Prompt Automatic Iterative Refinement(PAIR),旨在填補大型語言模型(LLMs)的安全漏洞。

PAIR的功能

PAIR能夠識別可以欺騙LLM的「逃脫」提示,使其繞過為防止生成有害內容而設計的保護措施。這一算法的獨特之處在於其能夠有效地與黑箱模型(如ChatGPT)互動,並以更少的嘗試生成逃脫提示。此外,PAIR產生的提示可解釋且能在各種LLM之間轉移,對於希望快速、經濟地識別和修補漏洞的企業來說,是一個寶貴的工具。

逃脫類型

逃脫一般可分為兩類:提示級別和標記級別。

- 提示級逃脫利用有意義的欺騙和社會工程來操控LLM的輸出。這類方法可解釋,但其設計通常需要大量的人力,限制了擴展性。

- 標記級逃脫透過增加任意標記來修改輸出,以優化提示。這種方法可以自動化,但通常需要廣泛的查詢,因而導致由於增加的複雜性而使輸出變得不那麼可解釋。

PAIR旨在融合提示級逃脫的可解釋性與標記級技術的自動化效率。

PAIR方法論

PAIR與兩個黑箱LLM運作:攻擊者模型和目標模型。攻擊者尋找可以無需人工干預的提示來逃脫目標模型。研究人員解釋說,這兩個LLM可以創意地合作,以識別有效的逃脫提示。

值得一提的是,PAIR無需直接訪問模型權重或梯度便可運行。它可以與通過API訪問的模型協同工作,包括OpenAI的ChatGPT、Google的PaLM 2以及Anthropic的Claude 2。

該過程分為四個步驟:

1. 攻擊者模型接收指令並生成針對特定任務(例如撰寫釣魚電子郵件)的候選提示。

2. 將此提示發送到目標模型以生成回應。

3. 使用如GPT-4等「評判」功能評估回應與提示的相關性。

4. 如果回應不滿意,則向攻擊者提供反饋,促使其進行新的嘗試。

這一循環持續進行,直到發現成功的逃脫,或達到最大嘗試次數,且能同時處理多個候選提示以提高效率。

結果與效果

在實驗中,研究人員使用開源的Vicuna模型作為攻擊者,針對包括ChatGPT、GPT-4、Claude 2等多個目標。結果顯示,PAIR在60%的案例中成功逃脫GPT-3.5和GPT-4,並在Vicuna-13B-v1.5中實現了完全成功。然而,Claude模型表現出高度的抗性,抵抗逃脫嘗試。

PAIR的一大顯著優勢是其效率,以平均約五分鐘的運行時間在最少二十次查詢中達成成功逃脫。這相比於傳統方法所需的數千次查詢及大量時間投入,是一個顯著的進步。

此外,PAIR攻擊的可解釋設計增強了其在其他LLM上的可轉移性。例如,為Vicuna生成的提示成功轉移至其他模型,突顯出它們因類似的訓練過程而共享的脆弱性。

未來方向

展望未來,研究人員建議優化PAIR,以系統性地創建紅隊測試數據集,幫助企業微調攻擊者模型,以提高安全其LLM系統的速度和效率。

優化LLM性能

PAIR是利用LLM作為優化工具的更大趨勢的一部分。傳統上,用戶必須手動微調提示以獲得最佳結果。然而,通過將提示過程重構為結構化挑戰,算法能夠促進對模型輸出的持續優化。

DeepMind最近介紹了一種名為透過提示進行優化(OPRO)的類似方法,利用LLM通過自然語言指令來優化問題解決。隨著語言模型不斷進步以更有效地優化自身輸出,LLM領域的進展可能會加速,為重大的突破鋪平道路。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles