Por qué Anthropic y OpenAI Prioritizan la Seguridad de los Pesos de los Modelos LLM

Como Director de Seguridad de la Información en Anthropic, Jason Clinton desempeña un papel multifacético, reportando directamente al CEO Dario Amodei. Con un equipo dedicado, gestiona diversos aspectos de la seguridad, incluyendo la protección de datos y seguridad física, en esta startup respaldada por Google y Amazon, conocida por sus avanzados modelos de lenguaje, Claude y Claude 2. A pesar de haber recaudado más de $7 mil millones en inversiones y contar con alrededor de 300 empleados, el enfoque principal de Clinton es salvaguardar los pesos del modelo de Claude, que se encuentran en un archivo masivo del tamaño de un terabyte, contra accesos no autorizados.

En el aprendizaje automático, especialmente dentro de las redes neuronales profundas, los pesos del modelo representan las conexiones numéricas críticas que permiten a la red neuronal aprender y hacer predicciones. Los valores finales de estos pesos influyen significativamente en el rendimiento general del modelo. Un informe reciente de la Rand Corporation destaca la importancia de proteger estos pesos, que encapsulan los extensos recursos y procesos complejos involucrados en el entrenamiento de modelos avanzados. Si cayeran en manos de actores malintencionados, estos pesos podrían otorgar acceso total al modelo a una fracción del costo de entrenamiento.

“Probablemente paso casi la mitad de mi tiempo como CISO pensando en proteger ese único archivo”, comentó Clinton en una reciente entrevista, señalando que recibe una atención y recursos significativos dentro de la organización.

Preocupaciones sobre los Pesos del Modelo

Clinton, quien se unió a Anthropic tras una carrera de 11 años en Google, señaló que, aunque algunos consideran los pesos una propiedad intelectual de gran valor, la principal preocupación de la empresa es evitar que la tecnología caiga en manos equivocadas. Explicó que el mal uso por delincuentes oportunistas, grupos terroristas o estados-nación podría tener consecuencias graves. “Si un atacante accede al archivo completo, eso es toda la red neuronal”, advirtió.

Esta preocupación se ve respaldada por recientes iniciativas del gobierno de EE. UU. El Decreto Ejecutivo de la Casa Blanca sobre el “Desarrollo y Uso Seguro, Seguro y Confiable de la Inteligencia Artificial” exige que las empresas de modelos fundamentales documenten la propiedad y las medidas de seguridad relacionadas con sus pesos de modelo.

OpenAI, un actor destacado en el campo, indicó en una publicación de blog de octubre de 2023 que está invirtiendo diligentemente en medidas de ciberseguridad para proteger sus pesos de modelo propietarios, limitando la distribución fuera de su organización y del socio tecnológico Microsoft.

Vectores de Ataque Identificados en Nuevas Investigaciones

Los coautores Sella Nevo y Dan Lahav del reciente informe de Rand Corporation, “Asegurando los Pesos de Modelo de Inteligencia Artificial”, identificaron alrededor de 40 posibles vectores de ataque que actores maliciosos podrían explotar para robar pesos de modelo. Desde accesos físicos no autorizados hasta ataques a la cadena de suministro, el informe destacó ejemplos reales de estos vectores en acción.

Nevo enfatizó que las preocupaciones se centran menos en las capacidades actuales y más en los riesgos futuros, anticipando implicaciones significativas para la seguridad nacional a medida que los modelos avanzan.

Riesgos de Modelos Fundamentales Abiertos

No todos los expertos coinciden en la gravedad de los riesgos asociados con las filtraciones de pesos de modelos de IA, particularmente en relación con los modelos de código abierto. Un informe de políticas del Stanford HAI indicó que los modelos fundamentales abiertos, ampliamente disponibles, pueden fomentar la innovación y la transparencia, sugiriendo que los riesgos asociados deben ser evaluados en comparación con los modelos cerrados.

Kevin Bankston del Center for Democracy & Technology elogió el informe por su análisis equilibrado y basado en evidencia. El informe destacó resultados mixtos, citando el modelo Llama 2 de Meta, que fue lanzado con pesos disponibles públicamente a pesar de una filtración anterior.

Mientras los defensores argumentan a favor de la seguridad de código abierto, Heather Frase de la Universidad de Georgetown señaló que a medida que los modelos generativos evolucionan, el potencial de daño también aumenta, especialmente para individuos que son objeto de tecnologías maliciosas.

Enfatizando la Apertura en la Seguridad

Nicolas Patry, ingeniero de ML en Hugging Face, declaró que los riesgos asociados con los pesos de modelo requieren protocolos de seguridad regulares. Sin embargo, cree que la transparencia mejora la seguridad. William Falcon, CEO de Lightning AI, hizo eco de este sentimiento, argumentando que los intentos de controlar las filtraciones de pesos de modelo son inútiles, ya que la comunidad de código abierto evoluciona rápidamente.

Clinton coincide en que los modelos de código abierto no representan los mayores riesgos que Anthropic debe priorizar. Insta a los gobiernos a centrarse en regular los modelos “fronterizos” mientras subraya la importancia de continuar la investigación y la seguridad.

Desafíos de Seguridad en Curso

A pesar del optimismo de los investigadores, Nevo advirtió contra la complacencia, señalando que las medidas de seguridad actuales pueden no proteger adecuadamente contra amenazas futuras. Clinton destacó el desafío de la escasez de talento en seguridad de IA, afirmando: “No hay expertos en seguridad de IA… Necesitamos ingenieros de seguridad de alto nivel que puedan adaptarse rápidamente a este panorama en evolución”.

Expresó su preocupación por la creciente facilidad con la que los atacantes podrían explotar vulnerabilidades. Mirando hacia el futuro, anticipa un cambio en las prácticas de ciberseguridad de actualizaciones periódicas a diarias, lo que requeriría un cambio de mentalidad significativo en toda la industria.

El compromiso de Clinton de equilibrar los rápidos avances en investigación con robustas medidas de seguridad subraya la urgencia de estrategias proactivas para salvaguardar los pesos de los modelos de IA. “Es crucial que nuestro equipo de investigación se sienta respaldado mientras gestiona de manera segura los pesos de modelo”, concluyó.

Most people like

Find AI tools in YBX