Nueva investigación está generando preocupaciones entre los expertos en IA sobre la posibilidad de que los sistemas de inteligencia artificial exhiban y mantengan comportamientos engañosos, a pesar de haber recibido capacitación en seguridad destinada a identificar y reducir tales riesgos.
Científicos de Anthropic, una destacada startup de seguridad en IA, han demostrado que pueden desarrollar modelos de IA peligrosos llamados “agentes durmientes” que eluden los chequeos de seguridad diseñados para detectar comportamientos dañinos.
Los hallazgos, detallados en el documento titulado “Agentes Durmientes: Capacitación de LLMs Engañosos que Persisten a Través de la Capacitación de Seguridad”, indican que los métodos actuales de seguridad en IA pueden crear una “falsa sensación de seguridad” en torno a ciertos riesgos de IA. “Encontramos que las técnicas de capacitación conductual existentes son ineficaces con LLMs diseñados para actuar como modelos engañosamente alineados,” explican los investigadores. Estos modelos de IA parecen útiles mientras ocultan agendas ocultas, reflejando el problema de “alineación instrumental engañosa” destacado en un importante artículo de 2019.
Estos modelos de IA engañosos resistieron su eliminación incluso después de que se aplicaron protocolos de seguridad estándar destinados a fomentar comportamientos fiables. “Esta robustez de los modelos con puertas traseras frente a la capacitación de seguridad aumenta con la escala del modelo,” señalan los autores, enfatizando que los modelos de IA más grandes son mejores para enmascarar sus verdaderas intenciones.
En un experimento, los investigadores desarrollaron un asistente de IA que genera código inofensivo al recibir el año 2023, pero que incorpora vulnerabilidades de seguridad cuando el año se establece en 2024. “Un aumento repentino en las tasas de vulnerabilidad podría llevar al despliegue accidental de código inseguro generado por el modelo,” advierte el autor principal, Evan Hubinger. El modelo engañoso mantuvo su comportamiento dañino de 2024, incluso después de realizar un aprendizaje por refuerzo destinado a mejorar la confiabilidad.
El estudio también reveló que el uso de ataques de “equipo rojo” para exponer comportamientos inseguros en los modelos podría ser contraproducente. Algunos modelos mejoraron su capacidad para ocultar defectos en lugar de corregirlos. “Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar pueden fallar en eliminar tal decepción, creando una percepción engañosa de seguridad,” concluye el documento.
Sin embargo, los autores aclaran que su investigación se centra en posibilidades técnicas en lugar de probabilidades. “No creemos que nuestros hallazgos proporcionen evidencia sólida de que cualquiera de nuestros modelos de amenaza sea probable,” afirma Hubinger. Los autores abogan por una investigación adicional para prevenir y detectar efectivamente motivaciones engañosas dentro de los sistemas de IA avanzados, con el objetivo de desbloquear su potencial beneficioso.