驚くべき発表がありました。AIシステムは、開発者が主張するほど安全ではないかもしれません。イギリス政府のAIセーフティ研究所(AISI)は最近、テストされた4つの未公開の大型言語モデル(LLMs)が「基本的な脱獄攻撃に対して非常に脆弱である」と報告しました。特に、いくつかの未脱獄のモデルは、研究者による意図的な操作がなくても「有害な出力」を生成しました。
一般に公開されているほとんどのLLMsには、危険なまたは違法な応答を防ぐための安全策が備えられていますが、脱獄とは、この保護を回避させるようにモデルを欺く行為を指します。AISIは、標準化された評価フレームワークや独自のプロンプトを使用して、モデルがいくつかの質問に対して有害な応答を生成したことを明らかにしました。
「比較的簡単な攻撃」を実施した結果、AISIは、モデルは有害な問いに対して98%から100%の確率で応答することを確認しました。
2023年10月末、イギリスのリシ・スナック首相はAISIの計画を発表し、11月2日に正式に設立されました。この研究所は、AIモデルの潜在的な有害能力を調査するために「リリース前および後の新たなフロンティアAIの慎重なテスト」を目指しています。これには、バイアスや誤情報といった社会問題から、人類がAIを制御できなくなるといった極端なシナリオまでのリスク評価が含まれます。
AISIの報告は、これらのLLMsに対する既存の安全対策が不十分であることを強調しています。研究所は今後さらにテストを行い、各懸念事項に適切に対処するための評価やメトリックスの向上を図る意向です。