生成AIの需要が急増する中、安全かつ信頼性の高い展開を保証することがこれまで以上に重要になっています。企業は、一貫して高品質な出力を生み出す大規模言語モデル(LLM)アプリケーションの開発を目指していますが、潜在的な落とし穴を回避する必要があります。
これに応じて、Microsoftは、生成AIに共通する自動的な幻覚や、攻撃者がモデルを操作して有害または個人情報を生成する「プロンプトインジェクション」といったセキュリティの脅威に対処するための新しいAzure AIツールを発表しました。
Microsoftの新機能の特徴
現在プレビュー中のこれらのAzure AIの強化機能は、今後数ヶ月で広く利用可能になる予定ですが、特定のリリース日は未定です。プロンプトインジェクション攻撃は、悪意のある第三者が入力プロンプトを変更して通常のモデル操作や安全制御を回避することでセキュリティを脅かします。Microsoftは、直接的なインタラクションだけでなく、悪意のあるウェブページを利用した間接的な方法にも対処するため、Azure AIに「プロンプトシールド」を統合しました。この高度な機能は、機械学習(ML)アルゴリズムと自然言語処理を利用してプロンプトや第三者データの悪意を分析し、有害な入力をモデルに達する前に遮断します。
プロンプトシールドは、Microsoftの次の3つのAIサービスで機能します:Azure OpenAI Service、Azure AI Content Safety、およびAzure AI Studioです。
信頼性と安全性の向上
プロンプトインジェクション攻撃を防ぐだけでなく、Microsoftは生成AIアプリケーションの信頼性を高めることにもコミットしています。新しいツールには、安全性を重視したシステムメッセージのためのプリビルトテンプレートと「グラウンデッドネス検出」という機能が含まれています。
プリビルトテンプレートは、開発者が安全で責任ある、データ駆動型の出力を促進するシステムメッセージを作成するのをサポートします。グラウンデッドネス検出は、カスタム言語モデルを用いて生成されたテキストの幻覚や不正確さを識別します。これらの機能は、Azure AI StudioとAzure OpenAI Serviceに統合されます。
さらに、グラウンデッドネスメトリックには自動評価機能が付属し、開発者が生成AIアプリケーションのリスクと安全性に関するストレステストを行えるようにします。これらの評価は、アプリが悪用される可能性や不適切なコンテンツを生成する可能性を評価し、開発者が効果的な対策を講じるための自然言語による説明を提供します。
Microsoftの責任あるAI担当チーフプロダクトオフィサー、サラ・バードは、多くの組織が生成AIアプリケーションの包括的なストレステストのためのリソースを欠いていることを強調しました。ジエイルブレイク攻撃のような新たなリスクを反映した高品質なテストデータセットの作成は困難であり、評価結果の解釈も複雑になることが多いです。
運用アプリのリアルタイム監視
アプリケーションが運用に入った後、Microsoftはリアルタイム監視機能を提供します。これらのツールは、プロンプトシールドなどの安全メカニズムをトリガーする入力と出力のインタラクションを追跡します。Azure OpenAI ServiceとAzure AI Studioを通じて利用可能なこの監視機能では、遮断されたユーザー入力とモデル出力の詳細な可視化をカテゴリー別に提供します。
このような可視性により、開発者は有害リクエストの傾向を把握し、コンテンツフィルターや制御を洗練させてアプリケーションの安全性を向上させることができます。
Microsoftは、最初にOpenAIのモデルに焦点を当て、その後、ミストラルなど他企業とのパートナーシップに拡大する形でAIサービスの強化を進めています。最近、ムスタファ・スレイマンとインフレクションAIチームを新たに迎え入れたことは、AI機能の多様化への戦略的な取り組みを示しています。
これらの新しい安全性と信頼性を高めるツールにより、Microsoftは開発者が安全な生成AIアプリケーションを構築できるよう支援し、迅速に進化する企業向けの信頼できるAIソリューションへのコミットメントを強化しています。