Validando aún más la vulnerabilidad de los modelos de IA generativa y sus plataformas, Lasso Security ayudó a Hugging Face a evitar un ataque potencialmente catastrófico al descubrir 1,681 tokens de API en riesgo. Estos tokens fueron detectados durante un escaneo exhaustivo de los repositorios de GitHub y Hugging Face realizado por investigadores de Lasso.
La investigación reveló acceso no autorizado a cuentas de 723 organizaciones, incluidas grandes empresas como Meta, Microsoft y Google. De estos, 655 usuarios contaban con tokens que otorgaban permisos de escritura, y 77 permitían el control total sobre los repositorios de varias empresas destacadas. Además, los investigadores de Lasso accedieron a los repositorios de Bloom, Llama 2, y Pythia, indicando un riesgo significativo de ataques a la cadena de suministro que podría afectar a millones de usuarios.
“Es importante destacar que nuestra investigación reveló una grave brecha en la infraestructura de la cadena de suministro, descubriendo cuentas de alto perfil de Meta,” afirmaron los investigadores de Lasso. “La gravedad de la situación no puede ser subestimada. Con el control de una organización que cuenta con millones de descargas, podemos manipular modelos existentes, convirtiéndolos en entidades maliciosas. Esto representa una amenaza grave, ya que la inyección de modelos corruptos podría impactar a millones que dependen de estas bases para sus aplicaciones.”
Hugging Face: Un Objetivo Principal
Hugging Face se ha vuelto vital para organizaciones que desarrollan modelos de lenguaje grande (LLMs), con más de 50,000 que dependen de su plataforma en sus esfuerzos de DevOps. Su biblioteca Transformers alberga más de 500,000 modelos de IA y 250,000 conjuntos de datos, convirtiéndola en el recurso preferido para desarrolladores de LLM y equipos de DevOps.
El rápido crecimiento de la plataforma se atribuye en gran medida a la naturaleza de código abierto de su biblioteca Transformers. La colaboración y el intercambio de conocimientos dentro de este ecosistema aceleran el desarrollo de LLM, aumentando la probabilidad de implementaciones exitosas. Esto convierte a Hugging Face en un objetivo atractivo para los atacantes, que buscan explotar vulnerabilidades en la cadena de suministro de LLM y IA generativa o exfiltrar datos de entrenamiento.
Perspectivas de Lasso Security
En noviembre de 2023, los investigadores de Lasso exploraron la seguridad de los tokens de API de Hugging Face, con el objetivo de comprender mejor los riesgos de exposición potencial. Identificaron tres riesgos emergentes alineados con el OWASP Top 10 para Modelos de Lenguaje Grande (LLMs):
1. Vulnerabilidades de la Cadena de Suministro: La investigación destacó cómo los componentes inseguros podrían comprometer los ciclos de vida de los LLM, exponiendo al sistema a ataques, particularmente a través de conjuntos de datos y modelos preentrenados de terceros.
2. Envenenamiento de Datos de Entrenamiento: Los atacantes podrían envenenar los datos de entrenamiento de LLM utilizando tokens de API comprometidos, introduciendo vulnerabilidades o preocupaciones éticas que podrían socavar la seguridad del modelo.
3. Robo de Modelos: Tokens de API comprometidos permiten rápidamente el acceso no autorizado, facilitando la copia o exfiltración de modelos LLM propietarios. La exploración de Lasso indicó el potencial "robo" de más de 10,000 modelos privados vinculados a 2,500 conjuntos de datos, justificando un cambio en la categoría de OWASP de “Robo de Modelos” a “Robo de Recursos de IA (Modelos y Conjuntos de Datos).”
“La gravedad de la situación no puede ser subestimada,” reiteró el equipo de Lasso Security. “Con control sobre organizaciones con millones de descargas, podemos manipular modelos, lo que representa riesgos significativos para los usuarios."
Conclusión: Tratar los Tokens de API como Identidades
El riesgo de una brecha significativa en Hugging Face subraya las prácticas complejas y en evolución necesarias para proteger las plataformas de LLM y IA generativa. Bar Lanyado, un investigador de seguridad en Lasso Security, aconsejó: “Hugging Face debería escanear constantemente en busca de tokens de API expuestos y revocarlos o notificar a los usuarios afectados.”
Inspirándose en el enfoque de GitHub, anima a los desarrolladores a evitar tokens de código duro y adoptar mejores prácticas para prevenir la exposición involuntaria durante los commits. Enfatizando un modelo de confianza cero, Hugging Face debería asegurar que los tokens de API sean únicos, utilizar autenticación multifactor y concentrarse en la gestión del ciclo de vida y la validación automatizada de identidades.
En el actual entorno de confianza cero, una mayor vigilancia por sí sola no es suficiente. La gestión continua de los tokens de API es crucial para la seguridad de los ecosistemas de LLM que nutren muchas empresas tecnológicas líderes. Como ilustra el incidente con Hugging Face, implementar una gestión adecuada de postura y mantener controles de acceso estrictos a nivel de token de API son pasos esenciales para fortalecer la seguridad organizacional en general. Cada organización debe adoptar una mentalidad proactiva para protegerse contra posibles brechas y reforzar la seguridad en todos los vectores de ataque.