A validação da vulnerabilidade dos modelos de IA generativa e suas plataformas foi evidenciada quando a Lasso Security ajudou a Hugging Face a evitar um ataque potencialmente catastrófico, identificando 1.681 tokens de API em risco. Esses tokens foram detectados durante uma varredura abrangente nos repositórios do GitHub e da Hugging Face realizada pelos pesquisadores da Lasso.
A investigação revelou acesso não autorizado às contas de 723 organizações, incluindo grandes empresas como Meta, Microsoft e Google. Desses, 655 usuários tiveram tokens com permissões de escrita, e 77 concederam controle total sobre repositórios de várias empresas de destaque. Os pesquisadores da Lasso também acessaram repositórios do Bloom, Llama 2 e Pythia, indicando um risco significativo de ataques à cadeia de suprimentos que poderiam afetar milhões de usuários.
“Nossa investigação revelou uma grave falha na infraestrutura da cadeia de suprimentos, descobrindo contas de alto perfil da Meta”, afirmaram os pesquisadores da Lasso. “A gravidade da situação não pode ser subestimada. Com controle sobre uma organização com milhões de downloads, podemos manipular modelos existentes, transformando-os em entidades maliciosas. Isso representa uma ameaça real, já que a injeção de modelos corrompidos poderia impactar milhões que dependem dessas bases para suas aplicações.”
Hugging Face: Um Alvo Primário
A Hugging Face tornou-se vital para organizações que desenvolvem grandes modelos de linguagem (LLMs), com mais de 50.000 dependentes de sua plataforma em seus esforços de DevOps. Sua biblioteca Transformers abriga mais de 500.000 modelos de IA e 250.000 conjuntos de dados, tornando-se o recurso preferido para desenvolvedores de LLM e equipes de DevOps.
O crescimento acelerado da plataforma deve-se em grande parte à natureza de código aberto de sua biblioteca Transformers. A colaboração e o compartilhamento de conhecimento nesse ecossistema aceleram o desenvolvimento de LLMs, aumentando a probabilidade de implantações bem-sucedidas. Isso torna a Hugging Face um alvo atraente para atacantes que buscam explorar vulnerabilidades na cadeia de suprimentos de LLMs e IA generativa ou extrair dados de treinamento.
Insights da Lasso Security
Em novembro de 2023, os pesquisadores da Lasso exploraram a segurança dos tokens de API da Hugging Face, buscando entender melhor os riscos de exposição potenciais. Eles identificaram três riscos emergentes alinhados ao OWASP Top 10 para Grandes Modelos de Linguagem (LLMs):
1. Vulnerabilidades da Cadeia de Suprimentos: A pesquisa destacou como componentes inseguros podem comprometer os ciclos de vida dos LLMs, expondo o sistema a ataques, especialmente por meio de conjuntos de dados de terceiros e modelos pré-treinados.
2. Contaminação de Dados de Treinamento: Atacantes poderiam contaminar os dados de treinamento de LLM usando tokens de API comprometidos, introduzindo vulnerabilidades ou preocupações éticas que poderiam prejudicar a segurança do modelo.
3. Roubo de Modelos: Tokens de API comprometidos possibilitam acesso não autorizado rapidamente, facilitando a cópia ou extração de modelos proprietários de LLM. A exploração da Lasso indicou o potencial "roubo" de mais de 10.000 modelos privados relacionados a 2.500 conjuntos de dados, justificando uma reclassificação da categoria OWASP de “Roubo de Modelos” para “Roubo de Recursos de IA (Modelos e Conjuntos de Dados).”
“A gravidade da situação não pode ser subestimada”, reiterou a equipe da Lasso Security. “Com controle sobre organizações com milhões de downloads, podemos manipular modelos, representando riscos significativos para os usuários.”
Conclusão: Trate Tokens de API como Identidades
O risco de uma violação significativa na Hugging Face destaca as práticas complexas e em evolução necessárias para proteger plataformas de LLM e IA generativa. Bar Lanyado, pesquisador de segurança da Lasso Security, aconselhou: “A Hugging Face deve realizar varreduras de forma consistente em busca de tokens de API expostos e revogá-los ou notificar os usuários afetados.”
Baseando-se na abordagem do GitHub, ele incentiva os desenvolvedores a evitar tokens codificados e adotar as melhores práticas para evitar exposição não intencional durante os commits. Enfatizando um modelo de confiança zero, a Hugging Face deve garantir que os tokens de API sejam únicos, utilizar autenticação multifator e focar na gestão do ciclo de vida e validação automatizada de identidades.
Em um ambiente de confiança zero, uma vigilância maior por si só não é suficiente. A gestão contínua dos tokens de API é crucial para a segurança dos ecossistemas de LLMs cultivados por muitas das principais empresas de tecnologia. Como o incidente com a Hugging Face ilustra, a implementação de gestão de postura e a manutenção de controle de acesso rigoroso no nível dos tokens de API são etapas essenciais para fortalecer a segurança organizacional geral. Toda organização deve adotar uma mentalidade proativa para se proteger contra possíveis violações e reforçar a segurança em todos os vetores de ataque.