LLMの脆弱性と『バタフライ効果』の理解

Home AIニュース LLMの脆弱性と『バタフライ効果』の理解

プロンプティングは、生成AIや大規模言語モデル（LLM）と対話して反応を引き出す手法です。これは「正確な」答えを得るための一種のアートと言えます。しかし、プロンプトの微妙な変更がモデルの判断やその精度にどのように影響するのでしょうか？

AIエージェントの準備は整っていますか？

南カリフォルニア大学の情報科学研究所の研究によると、その答えは明確に「はい」です。プロンプトの最初に空白を追加する、あるいは疑問を命令形にするなどの小さな調整でも、LLMの出力が大きく変わる可能性があります。特に、特定のコマンドや「ジェイルブレイク技術」を使用すると、モデルが生成するデータに「壊滅的な影響」を与えることがある点が懸念されています。研究者たちは、この感受性をカオス理論の「バタフライ効果」に例え、小さな変化が想定外の影響を引き起こす可能性を指摘しています。

ChatGPTを異なるプロンプティング技術で探る

国防高等研究計画局（DARPA）の研究資金を受け、研究者たちはChatGPTに対して4つの異なるプロンプティング手法をテストしました。

1. 指定された出力形式: PythonリストやChatGPTのJSONチェックボックス、CSV、XML、YAMLなどの形式で応答を促しました。

2. 小さな変更: プロンプトに小さな変化を加えました。

- 先頭または末尾に空白を追加

- 挨拶を用いる（例：「こんにちは」や「やあ」）

- 結論で「ありがとう」と付け加える

- 質問を命令形にする（例：「どのラベルが最適ですか？」を「最適なラベルを選択してください」とする）

3. ジェイルブレイク技術: 特定のプロンプトを使用しました。

- AIM: 不道徳または有害な反応を引き出すジェイルブレイク

- Dev Mode V2: 制約のないコンテンツを生成するコマンド

- 悪の協力者: 倫理に反する応答を引き出すプロンプト

- 拒絶抑制: 特定の言葉や形式を避けるようにモデルを操作する手法

4. 報酬の影響: チップについて言及することで出力が変わるかテストしました（例：「チップはあげませんが」対「$1, $10, $100, $1,000のチップを提供する」）。

精度と予測の影響

11の分類タスク（真偽問題から皮肉の検出まで）において、プロンプトの変化が予測の精度に与える影響を観察しました。重要な発見は、単に出力形式を指定するだけでも予測に最低10%の変化をもたらすことです。ChatGPTのJSONチェックボックス機能を使用した場合は、JSON仕様のみを使用したときよりもさらに大きな予測変化が見られました。さらに、YAML、XML、CSVを選択した場合、Pythonリストと比較して3-6%の精度低下があり、特にCSVは最も低いパフォーマンスでした。

ジェイルブレイクに関する懸念

この実験では、特定のジェイルブレイクに伴うパフォーマンスの大幅な低下も浮き彫りになりました。AIMやDev Mode V2は、約90%の予測に無効な応答をもたらす結果となりました。拒絶抑制や悪の協力者は、2,500を超える予測変化を引き起こし、悪の協力者は低精度となり、拒絶抑制は約10%の精度低下をもたらしました。

大規模言語モデルの一貫性の必要性

研究者たちは、わずかなプロンプトの変更がなぜ大きな出力変動を引き起こすのか、その理由を探求し続けています。特に変更の多い事例がモデルを混乱させているのかもしれないと考えています。人間の注釈を用いたタスクに焦点を当て、混乱が応答の変化にどのように関連するのかを調査した結果、一部のみが変動を説明できることがわかりました。

研究者たちは、「ChatGPTや他の大規模言語モデルが大規模なシステムに統合される中で、この分析はますます重要になります」と強調しています。

観測可能性と生成AIの融合がパフォーマンスとインサイトを革新する方法

生産性と創造性を高める：ChromeのGoogle新AI機能を活用しよう