수천 개의 기업들이 복잡하고 컴퓨팅 집약적인 AI 작업 부하를 확장하고 관리하기 위해 Ray 프레임워크에 의존하고 있습니다. 사실, Ray를 사용하여 개발되지 않은 대형 언어 모델(LLM)을 찾기란 어려운 일입니다. 그러나 이러한 작업 부하는 종종 민감한 데이터를 포함하고 있으며, 연구자들은 오픈 소스 통합 컴퓨팅 프레임워크 내에서 발생하는 심각한 보안 결함(CVE)으로 인해 취약하다고 지적했습니다. Oligo Security의 연구에 따르면, 지난 7개월 동안 이 결함은 공격자가 AI 프로덕션 작업 부하를 악용하여 컴퓨팅 파워, 자격 증명, 비밀번호, 키, 토큰 및 다양한 민감 정보를 탈취할 수 있게 했습니다. 이 취약점은 “ShadowRay”라는 이름으로 불리며, 현재도 논란이 계속되고 있습니다. 이는 “섀도우 취약점”으로 분류되며, 위협으로 인식되지 않고 공식 패치가 없습니다. 따라서 표준 스캔 과정에서도 발견되지 않습니다.
연구자들인 Avi Lumelsky, Guy Kaplan, Gal Elbaz는 “조사를 통해 확인된 AI 작업 부하가 현대 AI 인프라의 취약점을 통해 능동적으로 악용된 첫 번째 사례”이라고 밝혔습니다. 그들은 “공격자가 Ray 프로덕션 클러스터에 접근하게 되면, 이는 대박입니다. 소중한 기업 데이터와 원격 코드 실행의 조합은 수익 창출의 기회를 제공합니다. 그리고 이는 감지되지 않은 상태에서 이루어집니다.”라고 덧붙였습니다.
중대한 맹점
많은 조직들이 Amazon, Instacart, Shopify, LinkedIn, OpenAI와 같은 대규모 AI, 데이터 및 SaaS 작업을 위해 Ray에 의존하고 있으며, 이들 기업의 GPT-3 모델도 Ray를 사용하여 훈련되었습니다. 이 프레임워크는 수십억 개의 매개변수를 가진 모델에 필수적이며, 상당한 컴퓨팅 파워가 필요하고 단일 머신에서는 실행할 수 없습니다. Anyscale에서 유지 관리하는 Ray는 다양한 AI 모델의 훈련, 서비스, 조정을 위한 분산 작업을 지원합니다. 사용자는 광범위한 Python 지식이 필요하지 않으며, 설치 과정도 최소한의 종속성으로 간단합니다. Oligo 연구자들은 Ray를 “Pythonistas와 AI 실무자를 위한 스위스 군용 칼”이라고 부릅니다.
그러나 ShadowRay 취약점으로 인해 Ray에 대한 의존도가 더욱 우려스러운 상황입니다. CVE-2023-48022로 알려진 이 취약점은 Ray Jobs API에서 인가가 불충분하여 원격 코드 실행 공격에 노출되게 합니다. 대시보드에 접근할 수 있는 누구라도 허가 없이 임의의 작업을 실행할 수 있습니다. 이 취약점은 2023년 말 Anyscale에 다른 네 개의 문제와 함께 보고되었으나, 유일하게 대응되지 않은 것이 CVE-2023-48022입니다. Anyscale은 이 취약점이 예상되는 동작이라고 주장하며, 클러스터 내 작업 트리거와 동적 코드 실행을 용이하게 하는 제품 기능이라고 설명합니다.
Anyscale은 대시보드는 공개 접근이 불가능하거나 신뢰할 수 있는 사용자로 제한되어야 한다고 주장하며, Ray는 “적절한 라우팅 논리”를 가정하고 안전한 환경에서 작동한다고 봅니다. Oligo 연구자들은 “보안과 사용성을 조화롭게하는 복잡성을 나타낸다”며, Ray와 같은 중요한 시스템을 수정할 때 신중한 고려가 필요하다고 강조합니다. 또한, 논란이 있는 취약점은 종종 감지를 피하게 되어 많은 보안 스캐너들이 이를 간과하는 경우가 많습니다. Oligo 연구자들은 ShadowRay가 Google의 오픈 소스 취약점 데이터베이스(OSV)와 같은 여러 데이터베이스에 나타나지 않으며, 정적 애플리케이션 보안 테스트(SAST)와 소프트웨어 구성 분석(SCA) 솔루션에서도 보이지 않았다고 밝혔습니다.
“이로 인해 맹점이 생겼습니다. 보안 팀은 잠재적인 위험을 인식하지 못하고 있었던 것입니다.”라고 연구자들은 강조하며, “AI 전문가들은 보안 전문가가 아니기 때문에 AI 프레임워크로 인한 위험에 취약해질 수 있습니다.”라고 덧붙였습니다.
프로덕션 작업 부하에서 중요한 토큰으로
연구자들은 손상된 서버가 “엄청난” 양의 민감 정보를 유출했다고 밝혔습니다. 여기에는 다음이 포함됩니다:
- AI 프로덕션 작업 부하의 중단으로 인해 훈련 중 모델의 무결성이나 정확성 손상.
- 고객 데이터베이스 및 민감한 프로덕션 데이터가 노출될 수 있는 민감한 클라우드 환경(예: AWS, GCP, Azure)에 대한 접근.
- 클라우드 작업을 감염시키거나 Kubernetes 비밀을 추출할 수 있는 Kubernetes API 접근.
- OpenAI, Stripe, Slack과 같은 플랫폼을 위한 민감한 자격 증명.
- 전체 데이터베이스의 조용한 다운로드 또는 수정을 가능하게 하는 데이터베이스 자격 증명.
- 악의적인 활동을 위한 추가 머신 접근을 위한 개인 SSH 키.
- OpenAI 토큰으로 계정 크레딧 소모 가능.
- 개인 저장소에 접근을 제공하는 Hugging Face 토큰으로 공급망 공격 가능.
- 결제 계정을 소모할 수 있는 Stripe 토큰.
- 무단 메시징이나 읽기에 사용될 수 있는 Slack 토큰.
연구자들은 현재 많은 손상된 GPU가 부족하고 비용이 비싸다고 보고하며, “이 시스템을 공격하는 이유는 유용한 정보뿐 아니라 GPU가 비싸고 얻기 어려운 것도 그 이유입니다.”라고 설명했습니다. 일부 GPU의 온디맨드 가격이 AWS에서 연간 $858,480에 달할 정도입니다. 공격자들은 이 하드웨어를 악용할 수 있는 7개월의 시간이 있었으며, 손상된 머신과 컴퓨팅 파워의 가치는 약 10억 달러에 이를 것이라는 추정이 나옵니다.
섀도우 취약점 해결하기
Oligo 연구자들은 “섀도우 취약점은 항상 존재할 것”이며 악용의 지표는 다양할 수 있다고 인정합니다. 그들은 조직들을 위해 다음과 같은 몇 가지 조치를 권장합니다:
- Ray를 안전하고 신뢰할 수 있는 환경에서 운영할 것.
- 무단 접근을 방지하기 위한 방화벽 규칙 및 보안 그룹을 구현할 것.
- AI 클러스터 및 프로덕션 환경에서 이상 징후를 지속적으로 모니터링할 것.
- Ray 대시보드를 공개해야 할 경우, 인가 계층을 추가하는 프록시를 사용할 것.
- 기본 보안이 충분하다고 가정하지 말 것.
궁극적으로, 그들은 “오픈 소스 보안의 기술적 부담은 당신에게 있다. 유지 관리자를 단순히 믿지 말라”고 강조합니다.