Un estudio revela las vulnerabilidades de Alexa, Siri y Google Assistant ante comandos maliciosos.

Un estudio reciente de investigadores de Amazon Web Services (AWS) ha revelado serias vulnerabilidades de seguridad en los modelos de lenguaje grandes (LLMs) capaces de entender y responder a la voz. Titulado “SpeechGuard: Explorando la Robustez Adversarial de los Modelos de Lenguaje Multimodal,” el documento muestra cómo estos sistemas de IA pueden ser manipulados para generar respuestas dañinas o poco éticas mediante ataques de audio diseñados estratégicamente.

Con el aumento de las interfaces de voz, desde altavoces inteligentes hasta asistentes de IA, garantizar su seguridad y fiabilidad es fundamental. La investigación indica que, a pesar de las medidas de seguridad existentes, los modelos de lenguaje de voz (SLMs) siguen siendo altamente susceptibles a "ataques adversariales". Estos ataques implican alteraciones sutiles en la entrada de audio que son indetectables para los humanos pero que pueden cambiar radicalmente la salida del modelo.

Un ejemplo impactante mencionado en el estudio de AWS ilustra cómo un sistema de IA hablado podría ser obligado a proporcionar instrucciones poco éticas—como cómo robar un banco—cuando se ve sometido a un ataque adversarial. Para combatir estas vulnerabilidades, los investigadores sugieren un mecanismo de defensa de preprocesamiento.

Jailbreaking SLMs con Audio Adversarial

Los autores del estudio informan que sus experimentos revelan una vulnerabilidad asombrosa en los SLMs, con tasas de éxito promedio del 90% para el jailbreaking utilizando perturbaciones adversariales, y del 10% para ataques de transferencia en un conjunto de datos de preguntas dañinas. Advertencias serias surgen, incluyendo la posibilidad de que actores malintencionados exploten estas debilidades a gran escala.

Utilizando descenso de gradiente proyectado, los investigadores generaron ejemplos adversariales que consistentemente llevaron a los SLMs a producir salidas tóxicas en 12 categorías, incluyendo violencia explícita y discurso de odio. De manera notable, cuando tuvieron acceso completo al modelo, lograron una tasa de éxito del 90% en la violación de sus restricciones de seguridad.

El estudio subraya la viabilidad de ataques adversariales en diversos modelos de IA de preguntas y respuestas habladas. Al emplear estrategias de cruce entre modelos y entre indicaciones, se obtuvieron respuestas inesperadas, resaltando la necesidad imperiosa de defensas robustas y transferibles.

Ataques de Caja Negra: Una Amenaza en el Mundo Real

Más preocupante aún, el estudio encontró que los ataques de audio diseñados para un SLM a menudo se transfieren exitosamente a diferentes modelos, incluso sin acceso directo—un escenario cada vez más común dado que la mayoría de los proveedores comerciales ofrecen acceso limitado a la API. Aunque la tasa de éxito del ataque cayó al 10% en este contexto de "caja negra", sigue presentando una vulnerabilidad significativa.

El autor principal, Raghuveer Peri, comentó: “La transferibilidad de estos ataques entre diferentes arquitecturas de modelo sugiere una falla fundamental en nuestro enfoque actual para entrenar estos sistemas en cuanto a seguridad y alineación.”

Las implicaciones son considerables, ya que las empresas integran cada vez más la IA de voz en funciones como servicio al cliente y análisis de datos. Además del riesgo de daño reputacional por un mal funcionamiento de la IA, los ataques adversariales podrían facilitar el fraude, el espionaje o incluso el daño físico en entornos automatizados.

Contramedidas y el Camino por Delante

Afortunadamente, los investigadores proponen diversas contramedidas, como la introducción de ruido aleatorio en las entradas de audio—un enfoque denominado suavizado aleatorio. Sus experimentos demostraron que esta técnica redujo significativamente la tasa de éxito de los ataques adversariales, aunque los autores reconocen que no es una solución infalible.

“Defenderse contra ataques adversariales es una carrera armamentista continua,” comentó Peri. “A medida que las capacidades de estos modelos crecen, también lo hace el potencial para el uso indebido. Es crucial seguir invirtiendo en mejorar su seguridad y robustez.”

Los SLMs estudiados fueron entrenados con datos de diálogo, logrando un rendimiento de vanguardia en tareas de preguntas y respuestas habladas con más del 80% de seguridad y utilidad antes de la implementación de los ataques. Esto destaca el reto de equilibrar capacidad y seguridad a medida que evoluciona la tecnología.

Con empresas tecnológicas líderes compitiendo por desarrollar IA de voz más potentes, esta investigación sirve como un recordatorio oportuno de que la seguridad debe ser priorizada y no tratada como una reflexión posterior. La colaboración entre reguladores y grupos de la industria será esencial para establecer estándares rigurosos y protocolos de prueba.

Como enfatiza la coautora Katrin Kirchhoff, “Estamos en un punto de inflexión con esta tecnología. Tiene un potencial enorme para el beneficio social, pero también puede causar daño si no se desarrolla de manera responsable. Este estudio representa un paso crucial hacia la maximización de las ventajas de la IA de voz mientras se minimizan sus riesgos.”

Most people like

Find AI tools in YBX