O framework open-source Ray é amplamente utilizado, com milhares de organizações confiando nele para cargas de trabalho complexas e que demandam muitos recursos. Notavelmente, o GPT-3 foi treinado nesse framework, destacando sua importância no mundo dos grandes modelos de linguagem (LLMs).
Recentemente, a descoberta da vulnerabilidade "ShadowRay" levantou preocupações sérias. Durante sete meses, essa vulnerabilidade permitiu que atacantes acessassem cargas de trabalho sensíveis de produção de IA de milhares de empresas, comprometendo poder computacional, credenciais, senhas, chaves, tokens e outros dados críticos.
Embora a Anyscale, mantenedora do framework, tenha inicialmente contestado a gravidade da vulnerabilidade, lançou novas ferramentas para ajudar os usuários a verificar se suas portas estão expostas. "Diante de relatos de atividades maliciosas, agimos rapidamente para fornecer ferramentas que verifiquem a configuração adequada dos clusters e prevenir exposição acidental", declarou um porta-voz da Anyscale.
A vulnerabilidade, identificada como CVE-2023-48022, pode expor a API Ray Jobs a ataques de execução remota de código. Isso significa que qualquer pessoa com acesso à rede do painel poderia invocar jobs não autorizados, conforme revelado em um relatório recente da Oligo Security.
Embora a Anyscale tenha inicialmente caracterizado o problema como um comportamento esperado, agora introduziu o Open Ports Checker. Essa ferramenta simplifica o processo de identificação de portas inesperadamente abertas. O script do lado do cliente é configurado para contatar um servidor Anyscale pré-configurado, retornando uma mensagem "OK" ou um relatório de "AVISO" sobre portas abertas.
Um "AVISO" significa que o servidor detecta algo na porta, mas não necessariamente indica acesso aberto a tráfego não autenticado, já que o script não determina o que está sendo executado nessa porta. Uma resposta "OK" indica que nenhuma conexão foi estabelecida com nenhuma porta. No entanto, a Anyscale adverte que essa resposta não garante que nenhuma porta esteja aberta devido a configurações potenciais, como firewalls ou regras de NAT.
A Anyscale planeja realizar testes para a comunidade verificar explicitamente esses caminhos de rede. O repositório está disponível sob a licença Apache2 e pode ser implementado em qualquer Ray Head ou Worker Node, funcionando em todas as versões do Ray e retornando todas as portas existentes via APIs do Ray. A ferramenta também pode ser configurada para enviar chamadas de teste de rede para um servidor web leve, ou os usuários podem enviar chamadas para seus próprios servidores, se preferirem.
A vulnerabilidade 'ShadowRay' passou amplamente despercebida, pois não havia patch disponível. Assim, foi considerada uma "vulnerabilidade sombra", normalmente ignorada em varreduras padrão. De acordo com a Oligo Security, essa vulnerabilidade impactou:
- Cargas de trabalho de produção de IA
- Acesso a ambientes de nuvem (AWS, GCP, Azure, Lambda Labs) e serviços sensíveis na nuvem
- Acesso à API do Kubernetes
- Credenciais para OpenAI, Stripe e Slack
- Credenciais de banco de dados de produção
- Tokens para OpenAI, Hugging Face, Stripe e Slack
Até 28 de março, a Censys identificou 315 hosts globalmente afetados, com mais de 77% expondo uma página de login e vários expondo diretórios de arquivos.
Especialistas alertam que o 'ShadowRay' representa riscos significativos, pois visa a infraestrutura subjacente em vez de aplicativos específicos. Nick Hyatt, diretor de inteligência em ameaças da Blackpoint Cyber, destaca que os atores de ameaças podem obter muito mais informações ao comprometer a infraestrutura do que por meio de ataques direcionados por IA.
Muitos assumem que essa infraestrutura é segura, levando à complacência em relação aos dados que os LLMs utilizam. Essa percepção cria oportunidades para atacantes acessarem volumes elevados de informações sensíveis. Neil Carpenter, da Orca Security, enfatiza o desafio de liberar projetos de IA de código aberto sem medidas de segurança robustas, muitas vezes dependendo de documentação inadequada para componentes críticos.
A situação da 'ShadowRay' sublinha a necessidade de discussões mais amplas sobre práticas de desenvolvimento seguro, especialmente em um cenário onde a velocidade frequentemente ofusca a segurança. As empresas interessadas em adotar LLMs devem priorizar a higiene dos dados. “Você não pode inserir indiscriminadamente um servidor inteiro em um LLM e esperar resultados satisfatórios, especialmente ao lidar com dados sensíveis”, alerta Hyatt.
As organizações devem validar conjuntos de dados e entender os requisitos regulatórios, especialmente ao desenvolver LLMs locais. Questões sobre a proveniência dos dados e sua validação tornam-se críticas para garantir que os modelos forneçam insights precisos como parte das operações comerciais regulares.
Em última análise, os desafios apresentados pelo 'ShadowRay' não são apenas tecnológicos; envolvem pessoas, processos e tecnologia. À medida que a IA generativa continua a evoluir, Hyatt prevê um aumento nos ataques à infraestrutura em vez de exploração direta por meio de IA generativa. Com dados facilmente disponíveis e explorações comuns, os atacantes podem encontrar caminhos mais fáceis para comprometer do que empregando IA diretamente para intrusão.