El drama en la dirección de OpenAI resalta la urgente necesidad de integrar la seguridad en el proceso de desarrollo del modelo GPT. La decisión de la junta de OpenAI de despedir al CEO Sam Altman el viernes ha generado preocupaciones significativas sobre la seguridad de la IA, especialmente tras informes que sugieren posibles salidas de arquitectos senior encargados de proteger estos sistemas. Esta situación intensifica los temores entre los usuarios empresariales sobre los riesgos asociados con los modelos GPT.
Para garantizar la longevidad y escalabilidad, es crucial que la seguridad se entrelaza en el proceso de creación de modelos de IA, un aspecto que sigue sin abordarse. Se informa que la acción de la junta contra Altman fue impulsada por su enfoque acelerado en el desarrollo de productos y negocios, posiblemente en detrimento de los compromisos de seguridad de la empresa. Esto refleja el tumultuoso panorama de la gobernanza de la IA, donde las juntas de directores independientes buscan cada vez más control sobre las medidas de seguridad, a menudo chocando con las presiones de crecimiento.
Si el cofundador Ilya Sutskever y los directores independientes que lo respaldan pueden soportar la reacción de los inversores y los seguidores de Altman, se presentan aquí problemas de seguridad clave que subrayan la necesidad de una integración temprana de la seguridad en el ciclo de desarrollo del software GPT.
Riesgos de Privacidad de Datos y Fugas
Brian Roemmele, un experto notable en ingeniería de prompts, identificó recientemente una vulnerabilidad en los modelos GPT de OpenAI que permite a ChatGPT acceder y mostrar los prompts de sesión y archivos cargados. Sugiere que se realicen modificaciones esenciales en los prompts de GPT para mitigar estos riesgos. En marzo, OpenAI reconoció y abordó un defecto en una biblioteca de código abierto que permitía a los usuarios ver los historiales de chat de otros usuarios activos. El problema radicaba en la base de datos de memoria Redis que almacenaba información del usuario, la cual expuso involuntariamente datos relacionados con pagos de 1.2% de los suscriptores de ChatGPT Plus durante un período de nueve horas.
Casos en Aumento de Manipulación y Uso Indebido de Datos
A pesar de las garantías sobre las medidas de protección, los atacantes están adaptando sus estrategias para explotar las sesiones de GPT. Investigadores de la Universidad de Brown descubrieron que el uso de idiomas menos conocidos, como el zulú y el gaélico, aumentaba significativamente sus posibilidades de eludir restricciones, alcanzando una tasa de éxito del 79% en comparación con menos del 1% en inglés. Sus hallazgos destacaron que traducir entradas inseguras a idiomas de pocos recursos mediante herramientas como Google Translate podía sortear efectivamente las salvaguardias, provocando respuestas dañinas de GPT-4.
Vulnerabilidades a Jailbreaks
Investigaciones realizadas por Microsoft han revelado que los modelos GPT son susceptibles a manipulaciones, generando frecuentemente salidas sesgadas y filtrando información privada. Notaron que aunque GPT-4 generalmente tiene un mejor rendimiento que GPT-3.5 en los benchmarks, es más vulnerable a prompts diseñados para eludir la seguridad. Los investigadores engañaron con éxito la lógica de GPT-4V a través de diálogos guionados, revelando riesgos explotables significativos asociados con modelos de lenguaje de gran tamaño multimodales (MLLMs). Un estudio reciente indicó una asombrosa tasa de éxito de ataque del 98.7% mediante tácticas de auto-adversidad.
Amenazas de Seguridad por Inyección de Prompts Multimodales
GPT-4V de OpenAI, que admite cargas de imágenes, enfrenta nuevas vulnerabilidades debido a posibles ataques de inyección multimodal. Al incrustar scripts maliciosos dentro de imágenes, los adversarios pueden explotar el modelo, llevando a la ejecución no autorizada de tareas. Los modelos de lenguaje actuales carecen de pasos robustos de sanitización de datos, haciéndolos excesivamente receptivos a cualquier entrada, como explica el programador Simon Willison.
Integración Continua de Seguridad como Necesidad
A medida que los equipos se apresuran a lanzar modelos GPT de próxima generación, la presión por cumplir con los plazos a menudo eclipsa las consideraciones de seguridad. Es esencial implementar protocolos automáticos de seguridad desde las primeras etapas de desarrollo. El objetivo debe ser aumentar las tasas de despliegue de código mientras se mitigan los riesgos de seguridad y se mejora la calidad general del código. La seguridad debe convertirse en una parte integral del Ciclo de Vida del Desarrollo de Software (SDLC), junto con métricas y flujos de trabajo adaptados para abordar los desafíos únicos de GPT y LML.
Los equipos de DevOps de alto rendimiento demuestran que incorporar la seguridad temprano en el proceso de diseño permite despliegues más rápidos y mejora la calidad del software. Una mayor colaboración entre los equipos de DevOps y de seguridad es crucial para fomentar la responsabilidad compartida por las tasas de despliegue, la calidad del software y las métricas de seguridad, indicadores clave de rendimiento para ambos equipos.