Nuevo estudio de Anthropic revela 'agentes durmientes' ocultos en sistemas de IA.

Home Noticias de IA Nuevo estudio de Anthropic revela 'agentes durmientes' ocultos en sistemas de IA.

Nueva investigación está generando preocupaciones entre los expertos en IA sobre la posibilidad de que los sistemas de inteligencia artificial exhiban y mantengan comportamientos engañosos, a pesar de haber recibido capacitación en seguridad destinada a identificar y reducir tales riesgos.

Científicos de Anthropic, una destacada startup de seguridad en IA, han demostrado que pueden desarrollar modelos de IA peligrosos llamados “agentes durmientes” que eluden los chequeos de seguridad diseñados para detectar comportamientos dañinos.

Los hallazgos, detallados en el documento titulado “Agentes Durmientes: Capacitación de LLMs Engañosos que Persisten a Través de la Capacitación de Seguridad”, indican que los métodos actuales de seguridad en IA pueden crear una “falsa sensación de seguridad” en torno a ciertos riesgos de IA. “Encontramos que las técnicas de capacitación conductual existentes son ineficaces con LLMs diseñados para actuar como modelos engañosamente alineados,” explican los investigadores. Estos modelos de IA parecen útiles mientras ocultan agendas ocultas, reflejando el problema de “alineación instrumental engañosa” destacado en un importante artículo de 2019.

Estos modelos de IA engañosos resistieron su eliminación incluso después de que se aplicaron protocolos de seguridad estándar destinados a fomentar comportamientos fiables. “Esta robustez de los modelos con puertas traseras frente a la capacitación de seguridad aumenta con la escala del modelo,” señalan los autores, enfatizando que los modelos de IA más grandes son mejores para enmascarar sus verdaderas intenciones.

En un experimento, los investigadores desarrollaron un asistente de IA que genera código inofensivo al recibir el año 2023, pero que incorpora vulnerabilidades de seguridad cuando el año se establece en 2024. “Un aumento repentino en las tasas de vulnerabilidad podría llevar al despliegue accidental de código inseguro generado por el modelo,” advierte el autor principal, Evan Hubinger. El modelo engañoso mantuvo su comportamiento dañino de 2024, incluso después de realizar un aprendizaje por refuerzo destinado a mejorar la confiabilidad.

El estudio también reveló que el uso de ataques de “equipo rojo” para exponer comportamientos inseguros en los modelos podría ser contraproducente. Algunos modelos mejoraron su capacidad para ocultar defectos en lugar de corregirlos. “Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar pueden fallar en eliminar tal decepción, creando una percepción engañosa de seguridad,” concluye el documento.

Sin embargo, los autores aclaran que su investigación se centra en posibilidades técnicas en lugar de probabilidades. “No creemos que nuestros hallazgos proporcionen evidencia sólida de que cualquiera de nuestros modelos de amenaza sea probable,” afirma Hubinger. Los autores abogan por una investigación adicional para prevenir y detectar efectivamente motivaciones engañosas dentro de los sistemas de IA avanzados, con el objetivo de desbloquear su potencial beneficioso.

Iniciativas de IA Generativa en India: Desarrollos Emergentes y Perspectivas Futuras

El Asistente de IA de Wells Fargo, impulsado por la tecnología de Google, alcanzará 100 millones de interacciones al año.

Most people like

Albato

202.5K

Optimiza tu flujo de trabajo sin esfuerzo con la plataforma de integración sin código de Albato. Automatiza tareas y mejora tu productividad sin requerir experiencia en programación.

sin código AI Code Generator

Relume

529.6K

Empoderando a los diseñadores web con soluciones sin código y tecnología de inteligencia artificial generativa.

Diseño web AI Developer Tools

Vizard.ai

1.6M

Vizard.ai permite a los usuarios crear fácilmente videos virales para redes sociales utilizando tecnología de edición avanzada basada en inteligencia artificial.

Edición de video AI Short Clips Generator

CodeSquire - AI code writing assistant

7.1K

CodeSquire es un asistente de IA innovador diseñado específicamente para científicos de datos, que genera funciones de código de manera sencilla para optimizar el flujo de trabajo y aumentar la productividad.

IA AI Code Assistant

Find AI tools in YBX