ペンシルベニア大学の新しいアルゴリズム「Prompt Automatic Iterative Refinement(PAIR)」は、大規模言語モデル(LLMs)の安全性の隙間を埋めることを目的としています。
PAIRによる取り組み
PAIRは、LLMを欺くことができる「脱獄」プロンプトを特定し、悪意のあるコンテンツの生成を防ぐために設計されたセーフガードを回避させます。このアルゴリズムは、ChatGPTのようなブラックボックスモデルと効果的に相互作用し、少ない試行回数で脱獄プロンプトを生成することで際立っています。また、PAIRが生成するプロンプトは解釈可能であり、さまざまなLLMに適用可能なため、企業が迅速かつ費用効果的に脆弱性を特定・修正するための貴重なツールです。
脱獄の種類
脱獄は大きく二つのカテゴリーに分けられます:プロンプトレベルとトークンレベルです。
- プロンプトレベルの脱獄:意味のある欺瞞やソーシャルエンジニアリングを利用してLLMの出力を操作します。解釈は可能ですが、設計にはかなりの人手が必要であり、スケーラビリティに制約があります。
- トークンレベルの脱獄:任意のトークンを追加して出力を修正し、プロンプトを最適化します。この方法は自動化できますが、膨大なクエリが必要で、複雑化のため解釈が難しくなることが一般的です。
PAIRは、プロンプトレベルの解釈可能性とトークンレベル技術の自動化効率を統合することを目指しています。
PAIRの方法論
PAIRは、攻撃モデルとターゲットモデルという二つのブラックボックスLLMで動作します。攻撃者モデルは、ターゲットモデルを脱獄するためのプロンプトを人間の介入なしに検索します。研究者たちは、両方のLLMが創造的に協力して効果的な脱獄プロンプトを特定することができると説明しています。PAIRはモデルの重みや勾配に直接アクセスせず、OpenAIのChatGPTやGoogleのPaLM 2、AnthropicのClaude 2など、APIを介してアクセス可能なモデルで機能します。
このプロセスは以下の四つのステップで進行します:
1. 攻撃者モデルが特定のタスク(例:フィッシングメールの作成)に対する候補プロンプトを生成します。
2. このプロンプトがターゲットモデルに送られ、応答が生成されます。
3. GPT-4のような「ジャッジ」機能が、プロンプトに対する応答の関連性を評価します。
4. 応答が不十分な場合、攻撃者にフィードバックが提供され、新たな試行が促されます。
このループは、成功する脱獄が発見されるか、最大試行回数に達するまで続き、複数の候補プロンプトを同時に処理することで効率を向上させます。
結果と効果
試験では、研究者はオープンソースのVicunaモデルを攻撃者として、ChatGPT、GPT-4、Claude 2などさまざまなターゲットに対して使用しました。その結果、PAIRはGPT-3.5とGPT-4で60%の成功率を達成し、Vicuna-13B-v1.5では完全成功を収めました。しかし、Claudeモデルは高い耐性を示し、脱獄の試みに対して抵抗力がありました。
PAIRの特筆すべき利点は、その効率性で、成功した脱獄をわずか20クエリで達成し、平均実行時間は約5分です。これは、数千のクエリと多大な時間を要する従来の方法と比較して、驚異的な改善です。また、PAIRの攻撃の解釈可能な設計は、他のLLMへの転送性を向上させます。例えば、Vicuna用に生成されたプロンプトは他のモデルでも成功裏に転用され、類似のトレーニングプロセスによる共通の脆弱性が浮き彫りになりました。
今後の方向性
今後、研究者はPAIRを改良し、レッドチーミング用のデータセットを系統的に作成することで、企業が攻撃者モデルを微調整し、LLMシステムのセキュリティを向上させるための速度と効率を高めることを提案しています。
LLMパフォーマンスの最適化
PAIRは、LLMを最適化ツールとして活用する広範なトレンドの一部です。従来、ユーザーは最適な結果を得るために手動でプロンプトを微調整する必要がありましたが、プロンプトプロセスを構造化された課題に再構築することで、アルゴリズムがモデル出力の継続的な最適化を促進できます。
DeepMindは最近、自然言語指示を通じて問題解決を最適化する「Optimization by PROmpting(OPRO)」という類似のアプローチを発表しました。言語モデルが自らの出力をより効果的に最適化するにつれて、LLM分野の進展が加速し、重要なブレークスルーをもたらす可能性があります。