排行榜類別收藏

突破性技術顯示如何讓一個大型語言模型成功繞過另一個模型

Home AI新聞突破性技術顯示如何讓一個大型語言模型成功繞過另一個模型

Updated on 十一月 7 2023

來自賓夕法尼亞大學的新算法，名為Prompt Automatic Iterative Refinement（PAIR），旨在填補大型語言模型（LLMs）的安全漏洞。

PAIR的功能

PAIR能夠識別可以欺騙LLM的「逃脫」提示，使其繞過為防止生成有害內容而設計的保護措施。這一算法的獨特之處在於其能夠有效地與黑箱模型（如ChatGPT）互動，並以更少的嘗試生成逃脫提示。此外，PAIR產生的提示可解釋且能在各種LLM之間轉移，對於希望快速、經濟地識別和修補漏洞的企業來說，是一個寶貴的工具。

逃脫類型

逃脫一般可分為兩類：提示級別和標記級別。

- 提示級逃脫利用有意義的欺騙和社會工程來操控LLM的輸出。這類方法可解釋，但其設計通常需要大量的人力，限制了擴展性。

- 標記級逃脫透過增加任意標記來修改輸出，以優化提示。這種方法可以自動化，但通常需要廣泛的查詢，因而導致由於增加的複雜性而使輸出變得不那麼可解釋。

PAIR旨在融合提示級逃脫的可解釋性與標記級技術的自動化效率。

PAIR方法論

PAIR與兩個黑箱LLM運作：攻擊者模型和目標模型。攻擊者尋找可以無需人工干預的提示來逃脫目標模型。研究人員解釋說，這兩個LLM可以創意地合作，以識別有效的逃脫提示。

值得一提的是，PAIR無需直接訪問模型權重或梯度便可運行。它可以與通過API訪問的模型協同工作，包括OpenAI的ChatGPT、Google的PaLM 2以及Anthropic的Claude 2。

該過程分為四個步驟：

1. 攻擊者模型接收指令並生成針對特定任務（例如撰寫釣魚電子郵件）的候選提示。

2. 將此提示發送到目標模型以生成回應。

3. 使用如GPT-4等「評判」功能評估回應與提示的相關性。

4. 如果回應不滿意，則向攻擊者提供反饋，促使其進行新的嘗試。

這一循環持續進行，直到發現成功的逃脫，或達到最大嘗試次數，且能同時處理多個候選提示以提高效率。

結果與效果

在實驗中，研究人員使用開源的Vicuna模型作為攻擊者，針對包括ChatGPT、GPT-4、Claude 2等多個目標。結果顯示，PAIR在60%的案例中成功逃脫GPT-3.5和GPT-4，並在Vicuna-13B-v1.5中實現了完全成功。然而，Claude模型表現出高度的抗性，抵抗逃脫嘗試。

PAIR的一大顯著優勢是其效率，以平均約五分鐘的運行時間在最少二十次查詢中達成成功逃脫。這相比於傳統方法所需的數千次查詢及大量時間投入，是一個顯著的進步。

此外，PAIR攻擊的可解釋設計增強了其在其他LLM上的可轉移性。例如，為Vicuna生成的提示成功轉移至其他模型，突顯出它們因類似的訓練過程而共享的脆弱性。

未來方向

展望未來，研究人員建議優化PAIR，以系統性地創建紅隊測試數據集，幫助企業微調攻擊者模型，以提高安全其LLM系統的速度和效率。

優化LLM性能

PAIR是利用LLM作為優化工具的更大趨勢的一部分。傳統上，用戶必須手動微調提示以獲得最佳結果。然而，通過將提示過程重構為結構化挑戰，算法能夠促進對模型輸出的持續優化。

DeepMind最近介紹了一種名為透過提示進行優化（OPRO）的類似方法，利用LLM通過自然語言指令來優化問題解決。隨著語言模型不斷進步以更有效地優化自身輸出，LLM領域的進展可能會加速，為重大的突破鋪平道路。

IBM推出5億美元企業人工智慧創投基金，繼對Hugging Face的投資之後

利用人工智慧與機器學習創新提升端點安全性

Most people like

1K

No.1 AI 攝影工作室，可將您變成任何角色、在任何地點、穿著任何服飾。

攝影 AI Photography

42.8K

提升客戶服務並增強銷售互動，使用先進的即時聊天工具。

即時聊天 AI Customer Service Assistant

Wanderboat AI Travel Planner

354K

發現探索世界的新方式，透過我們的AI旅遊規劃工具，為您量身定制個性化的體驗。無論您追求冒險、放鬆還是文化融入，我們的尖端技術將分析您的興趣，為您精心安排完美的行程。將旅行夢想化為現實，展開與您個人風格相呼應的難忘之旅。

AI 旅遊規劃師 AI Trip Planner

12.9K

透過自動化旅程的力量提升轉換率。了解如何利用量身訂製的自動化來改變您的行銷策略，並推動有意義的成果。

客戶互動 AI Analytics Assistant

Find AI tools in YBX

Related Articles

Refresh Articles