数千の企業が、複雑で計算集約的なAIワークロードのスケーリングと管理にRayフレームワークを活用しています。実際、多くの大規模言語モデル(LLM)がRayを利用して開発されているため、Rayなしで運用されているLLMを見つけるのは困難です。しかし、これらのワークロードには機密データが含まれており、研究者によって、オープンソースの統合コンピューティングフレームワーク内に重大なセキュリティ脆弱性(CVE)が存在することが確認されています。
Oligo Securityの調査によれば、この脆弱性は過去7か月間、攻撃者がAIプロダクションワークロードを悪用し、コンピューティングパワーや認証情報、パスワード、キー、トークンなど多数の機密情報にアクセスできる状態を許してきました。この脆弱性は「ShadowRay」と呼ばれ、未解決の問題とされています。「シャドウ脆弱性」とは、脅威として認識されず公式なパッチがない状態を指し、通常のスキャンプロセスにも現れません。
この状況について、研究者のアビ・ルメルスキー、ガイ・カプラン、ガル・エルバズは「現代のAIインフラストラクチャにおける脆弱性を通じてAIワークロードが積極的に悪用される初の事例」と述べ、「攻撃者がRayのプロダクションクラスターにアクセスすると、それはまさに大当たりであり、価値のある社内データとリモートコード実行の機会が結びつき、収益化のチャンスを提供する。しかし、すべてが検知されずに進行する」と警告しています。
重要な盲点
多くの組織がRayを利用して大規模なAI、データ、SaaSワークロードを管理しています。これには、Amazon、Instacart、Shopify、LinkedIn、OpenAIが含まれ、特にOpenAIのGPT-3モデルはRayを使って訓練されています。このフレームワークは、巨大なパラメータ数を持つモデルに不可欠であり、単一のマシンでは処理できない膨大な計算能力を必要とします。Anyscaleが管理するRayは、さまざまなAIモデルのトレーニング、提供、チューニングのための分散ワークロードをサポートし、ユーザーは高度なPythonの知識を必要とせず、インストールも簡単で依存関係が最小限です。
Oligoの研究者は、Rayを「PythonistaやAI実践者のためのスイスアーミーナイフ」と呼んでいます。しかし、ShadowRayの脆弱性により、Rayへの依存は一層問題となります。CVE-2023-48022として知られるこの脆弱性は、RayジョブAPIの不十分な認証から生じ、リモートコード実行攻撃に対して脆弱です。ダッシュボードへのアクセスがある者は誰でも許可なく任意のジョブを実行できます。
この脆弱性はAnyscaleに報告されましたが、2023年末時点で解決されていない唯一の脆弱性です。Anyscaleはこの脆弱性を否定し、許可なくジョブをトリガーし、クラスター内で動的コードを実行する製品機能であると主張しています。また、Anyscaleはダッシュボードが公にアクセス可能であってはならず、信頼できるユーザーに制限されるべきだと述べています。このため、Rayは「適切なルーティングロジック」を前提とした安全な環境下での操作を想定しています。
この決定は「ソフトウェア開発におけるセキュリティと使いやすさのバランスを取る難しさ」を反映しており、Oligoの研究者は、Rayのような重要なシステムを変更する際には慎重な考慮が必要であると強調しています。さらに、論争のある脆弱性は検知を回避することが多いため、多くのセキュリティスキャナーが見逃すことがあります。Oligoの研究者は、ShadowRayがGoogleのオープンソース脆弱性データベース(OSV)や静的アプリケーションセキュリティテスト(SAST)、ソフトウェア構成分析(SCA)ソリューションでは確認されなかったことを発見しました。
「これにより、盲点が生じ、セキュリティチームは潜在的なリスクに気づかないままでした」と研究者たちは強調しています。また、「AI専門家は必ずしもセキュリティの専門家ではなく、AIフレームワークによるリスクに対して脆弱な状況です」と指摘しています。
プロダクションワークロードから重要なトークンまで
研究者たちは、侵害されたサーバーが多くの機密情報を漏洩したことを明らかにしました。この情報には以下が含まれます:
- AIプロダクションワークロードの混乱、トレーニング中のモデルの完全性や正確性の低下。
- 顧客データベースや重要な生産データを危険にさらす可能性のあるAWS、GCP、Azureの機密クラウド環境へのアクセス。
- Kubernetes APIへのアクセスにより、クラウドワークロードの感染やKubernetesの秘密情報の抽出。
- OpenAI、Stripe、Slackなどのプラットフォームに対する機密資格情報。
- 完全なデータベースのダウンロードや変更を許可するデータベース資格情報。
- 追加の機械に悪意のある活動のためにアクセスするためのプライベートSSHキー。
- OpenAIトークンにより、アカウント残高が消耗される可能性。
- プライベートリポジトリへのアクセスを提供し、サプライチェーン攻撃を容易にするHugging Faceトークン。
- 支払いアカウントを悪用して消耗される可能性のあるStripeトークン。
- 無許可のメッセージ送信や読み取りに利用されるSlackトークン。
研究者たちは、現在、多くの侵害されたGPUが不足して高価であり、「数百の侵害されたクラスターが特に暗号通貨のマイニングに利用されている」と報告しています。「攻撃者は、貴重な情報だけでなく、高価で入手困難なGPUを狙っています。特に最近では、AWSの一部のGPUのオンデマンド価格が年間858,480ドルに達しています」。攻撃者はこのハードウェアを7か月間悪用しているため、侵害されたマシンやコンピューティングパワーの価値は10億ドルに達する可能性があります。
シャドウ脆弱性への対処
Oligoの研究者は、「シャドウ脆弱性は常に存在する」と認め、悪用の指標はさまざまに異なると述べています。彼らは組織に対し以下の行動を推奨しています:
- Rayを安全で信頼できる環境で運用すること。
- 不正アクセスを防ぐためにファイアウォールルールやセキュリティグループを実施すること。
- AIクラスターやプロダクション環境を常に監視し、異常を検知すること。
- Rayダッシュボードを公にアクセス可能にする必要がある場合は、承認層を追加するプロキシを使用すること。
- デフォルトのセキュリティが十分であると決して考えないこと。
最終的に、彼らは「オープンソースを保護する技術的な負担はあなたにあります。メンテイナーにだけ依存しないでください」と強調しています。