最近、Amazon Web Services(AWS)の研究者による調査が、大規模言語モデル(LLM)が音声を理解し応答する際に深刻なセキュリティ脆弱性を持つことを明らかにしました。この論文「SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models」では、これらのAIシステムが巧妙に設計された音声攻撃により、有害または倫理に反する応答を生成するよう操作される可能性が示されています。
音声インターフェイスはスマートスピーカーやAIアシスタントなどでますます普及しており、その安全性と信頼性を確保することが重要です。しかし、研究によると、既存の安全対策にもかかわらず、音声言語モデル(SLM)は「敵対的攻撃」に非常に敏感であることがわかりました。これらの攻撃は、人間には検出できない微細な変化を音声入力に加えることによって、モデルの出力を根本的に変えることができます。
AWSの研究は、音声AIシステムが敵対的攻撃を受けると、銀行強盗の方法を教えるなどの倫理に反する指示を提供するように操られる可能性があることを示しています。この脆弱性に対抗するため、研究者たちは前処理防御機構を提案しています。
音声攻撃によるSLMのジャイルブレイキング
研究者たちの実験では、敵対的乱れを使用したSLMのジャイルブレイキングの成功率が平均90%、有害な質問データセットに対する移転攻撃では10%と、驚異的な脆弱性が明らかになりました。彼らは、悪意のある actors がこれらの弱点を大規模に悪用する可能性のある深刻な影響について警鐘を鳴らしています。
研究者は、勾配降下法を利用して敵対的な例を生成し、SLMが極端な暴力やヘイトスピーチを含む12のカテゴリで有毒な出力を一貫して出力するよう仕向けました。特に、モデルに完全にアクセスできた際には、90%の成功率で安全制約を突破しました。
この研究は、さまざまな音声質問応答AIモデルにおける敵対的攻撃の実現可能性を裏付けています。モデル間およびプロンプト間の戦略を利用することで、予期しない応答が引き出され、強靭で移転可能な防御の必要性が浮き彫りにされました。
ブラックボックス攻撃:現実の脅威
さらに懸念されるのは、1つのSLM向けに設計された音声攻撃が、直接アクセスなしでも他のモデルに成功裏に転送されることが多いという点です。ほとんどの商業プロバイダーがAPIアクセスを制限しているため、これはますます一般的な状況となっています。この「ブラックボックス」環境では攻撃成功率は10%に低下しましたが、それでも重要な脆弱性を呈しています。
主著者のラグビヴェール・ペリ氏は、「異なるモデルアーキテクチャ間でのこれらの攻撃の移転性は、安全性と整合性のための現在のアプローチに根本的な欠陥があることを示唆しています」と述べています。この影響は大きく、企業がカスタマーサービスやデータ分析に音声AIをますます統合する中、 malfunctioning AIによる評判の損傷や、敵対的攻撃が詐欺、スパイ、さらには自動化環境での物理的危害を引き起こす可能性があります。
対策と今後の展望
幸いにも、研究者たちは音声入力にランダムノイズを導入する「ランダム化スムージング」と呼ばれるさまざまな対策を提案しています。彼らの実験では、この技術が敵対的攻撃の成功率を大幅に低下させることを示しましたが、著者たちはこれが完全無欠な解決策ではないことを認めています。
「敵対的攻撃からの防御は、継続的な軍拡競争です」とペリ氏は語ります。「これらのモデルの能力が向上するにつれて、悪用の可能性も増大します。その安全性と堅牢性を強化するためへの継続的な投資が重要です。」
研究に使用されたSLMはダイアログデータで訓練され、攻撃が行われる前に80%以上の安全性と有用性を達成しました。これは、技術が進化する中で、機能性と安全性のバランスを取る難しさを示しています。
主要なテクノロジー企業がより強力な音声AIの開発を競い合う中、この研究はセキュリティを優先し、後回しにすべきではないことを思い起こさせる重要な警告となります。規制当局と業界団体の連携は、厳格な基準と試験プロトコルを確立する上で不可欠です。
共著者のカトリン・キルヒホフ氏は、「私たちはこの技術の分岐点にいます。社会的利益をもたらす可能性が非常に大きい一方で、責任を持って開発しなければ害を及ぼす可能性もあります。この研究は、音声AIの利点を最大限に引き出し、そのリスクを最小化するための重要なステップを表しています」と強調しています。