La Amenaza de Hackear Chatbots Internos de IA con Arte ASCII: La Peor Pesadilla de un Equipo de Seguridad

Amenazas Internas: Los Riesgos de los Chatbots de IA

Las amenazas internas se encuentran entre los tipos de ciberataques más graves, poniendo en riesgo los sistemas y activos vitales de una empresa. A medida que las empresas implementan rápidamente nuevos chatbots de IA tanto internos como orientados al cliente, abren inadvertidamente nuevos vectores de ataque y riesgos.

La Vulnerabilidad de los Chatbots de IA

Una investigación reciente titulada "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs" revela la susceptibilidad de los sistemas de IA. Los investigadores lograron "jailbreakear" cinco modelos de lenguaje grande de última generación (LLMs), incluyendo ChatGPT-3.5, GPT-4, Gemini, Claude y Llama2 de Meta, utilizando arte ASCII.

ArtPrompt explota las dificultades de los LLMs para interpretar el arte ASCII, permitiendo a los atacantes eludir medidas de seguridad. Cabe destacar que el ataque puede ejecutarse con acceso limitado al LLM objetivo y requiere menos intentos para un jailbreak exitoso.

Comprendiendo la Vulnerabilidad del Arte ASCII

A pesar de que los LLMs sobresalen en la interpretación semántica, tienen dificultades con el reconocimiento espacial y visual complejo. Los investigadores establecieron el Vision-in-Text Challenge (VITC), un benchmark diseñado para evaluar las habilidades de los LLMs en el reconocimiento de arte ASCII a través de dos conjuntos de datos únicos:

- VITC-S se enfoca en caracteres individuales en arte ASCII, cubriendo 36 clases con 8,424 muestras que desafían las habilidades de reconocimiento de los LLMs.

- VITC-L aumenta la complejidad al presentar secuencias de caracteres en 800 clases con 10 fuentes distintivas.

La transición de VITC-S a VITC-L resalta efectivamente las limitaciones de los LLMs respecto a la interpretación del arte ASCII.

ArtPrompt utiliza una estrategia de ataque en dos pasos que emplea texto ASCII para ocultar palabras de seguridad que los LLMs suelen filtrar. En la primera fase, se revela una palabra de seguridad, como "bomba", que luego se oculta en la segunda fase con arte ASCII. Este método ha demostrado ser eficaz en cinco LLMs de última generación.

El Auge de los Chatbots Internos de IA

Las empresas están acelerando la implementación de chatbots de IA internos y orientados al cliente para aprovechar posibles ganancias en productividad, eficiencia de costos e ingresos. Según un informe del Boston Consulting Group (BCG), el 10% de las empresas líderes tienen aplicaciones de IA generativa completamente integradas, con un 44% obteniendo retornos significativos de IA predictiva a gran escala. Notablemente, dos tercios de estas organizaciones de alto rendimiento son líderes en sectores como biopharma, energía y seguros, no solo nativas digitales como Amazon o Google.

Por ejemplo, una empresa de energía en EE. UU. implementó una plataforma conversacional impulsada por IA generativa para técnicos de primera línea, mejorando la productividad en un 7%. Mientras tanto, una firma biopharma usó IA generativa para reducir los tiempos de descubrimiento de fármacos en un 25%.

Desafíos de Seguridad de los Chatbots Internos

El crecimiento de los chatbots internos representa una superficie de ataque significativa, con las medidas de seguridad luchando por mantenerse al día. El CISO de una importante empresa de servicios financieros enfatizó que estos chatbots deben estar diseñados para recuperarse de errores y negligencias de los usuarios, además de estar reforzados contra ataques.

El informe "Cost of Insider Risks Report 2023" del Instituto Ponemon subraya la necesidad de implementar medidas de seguridad robustas para los sistemas centrales, incluidos las configuraciones en la nube y los chatbots de IA. El costo de mitigar un ataque promedio es de $7.2 millones por incidente, siendo la negligencia responsable del 55% de las violaciones de seguridad internas.

Estrategias de Defensa Evolutivas

Abordar los ataques de arte ASCII requerirá mejoras iterativas para minimizar los falsos positivos y negativos. Si los métodos de detección evolucionan, los atacantes se adaptarán, poniendo a prueba continuamente los límites de las capacidades de los LLMs. Los expertos abogan por estrategias de defensa multimodal que incorporen reconocimiento basado en aprendizaje automático del arte ASCII, junto con monitoreo continuo.

Proveedores de ciberseguridad como Cisco, Ericom Security, Menlo Security, Nightfall AI, Wiz y Zscaler están desarrollando métodos para proteger datos confidenciales durante las sesiones de ChatGPT. Zscaler recomienda un enfoque en cinco pasos:

1. Definir un conjunto mínimo de aplicaciones de IA generativa y aprendizaje automático para controlar riesgos.

2. Aprobar chatbots internos y aplicaciones para un uso a gran escala.

3. Crear instancias de servidores privados para ChatGPT en entornos seguros.

4. Implementar inicio de sesión único (SSO) con autenticación multifactor robusta (MFA).

5. Hacer cumplir protocolos de prevención de pérdida de datos (DLP) para evitar filtraciones.

El gerente de marketing de productos senior de Ericom destacó que aislar el acceso a herramientas de IA generativa podría permitir a los empleados utilizar recursos que ahorran tiempo mientras protegen información sensible. Dada la naturaleza complicada del arte ASCII, establecer defensas efectivas contra tales ataques es esencial para los chatbots y sus LLMs de soporte. Como enfatizan los investigadores, una estrategia de defensa multimodal es crucial para mitigar estas amenazas en evolución.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles