Comprendiendo la Vulnerabilidad de los LLMs al 'Efecto Mariposa'

El uso de prompts es la forma en que interactuamos con la inteligencia artificial generativa y los modelos de lenguaje de gran tamaño (LLMs) para obtener respuestas. Es una forma de arte destinada a conseguir respuestas "exactas".

Pero, ¿cómo afectan las variaciones en los prompts las decisiones de un modelo y su precisión?

Investigaciones del Instituto de Ciencias de la Información de la Universidad del Sur de California indican que sí, las variaciones afectan significativamente. Cambios menores—como añadir un espacio al inicio de un prompt o formular una afirmación como un comando en lugar de una pregunta—pueden alterar drásticamente la salida de un LLM. Más preocupante es que el uso de comandos específicos o técnicas de "jailbreak" puede provocar "efectos catastróficos" en los datos que generan estos modelos. Los investigadores comparan esta sensibilidad con el efecto mariposa en la teoría del caos, donde pequeños cambios, como el aleteo de una mariposa, pueden desencadenar un tornado.

En su estudio, “cada paso requiere una serie de decisiones del diseñador del prompt”, señalan los investigadores, aunque “se ha prestado poca atención a la sensibilidad de los LLMs a las variaciones en estas decisiones”.

Explorando ChatGPT con Diferentes Técnicas de Prompts

Patrocinados por la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA), los investigadores se centraron en ChatGPT y probaron cuatro métodos de prompting distintos:

1. Formatos de Salida Específicos: Se pidió al LLM que respondiera en formatos como lista de Python, casilla de JSON de ChatGPT, CSV, XML o YAML.

2. Variaciones Menores: Esta técnica incluyó cambios sutiles en los prompts, como:

- Añadir un espacio al inicio o al final.

- Comenzar con saludos como "Hola" o "Qué tal".

- Terminar con frases como "Gracias".

- Reestructurar preguntas como comandos, por ejemplo, de "¿Cuál es la mejor etiqueta?" a "Selecciona la mejor etiqueta".

3. Técnicas de Jailbreak: Los prompts incluyeron:

- AIM: Un jailbreak que genera respuestas inmorales dañinas simulando conversaciones con figuras notorias.

- Dev Mode v2: Un comando para generar contenido sin restricciones.

- Evil Confidant: Un prompt que induce al modelo a ofrecer respuestas no éticas.

- Supresión de Negaciones: Una estrategia que manipula el modelo para evitar ciertas palabras y construcciones.

4. Propinas Financieras: Los investigadores evaluaron si mencionar propinas (por ejemplo, “No daré propina, por cierto” frente a ofrecer propinas de $1, $10, $100 o $1,000) influía en la salida.

Efectos en la Precisión y Predicciones

En 11 tareas de clasificación, que iban desde preguntas verdadero-falso hasta detección de sarcasmo, los investigadores observaron cómo las variaciones impactaron la precisión de las predicciones.

Los hallazgos clave revelaron que especificar un formato de salida provocaba un cambio mínimo del 10% en las predicciones. Utilizar la función de casilla JSON de ChatGPT generó cambios aún mayores en las predicciones en comparación con la especificación JSON sola. Además, elegir YAML, XML o CSV resultó en una caída de precisión del 3-6% en comparación con la lista de Python, siendo CSV el formato con peor rendimiento.

Pequeñas perturbaciones tuvieron un impacto notable; cambios simples como añadir un espacio llevaron a más de 500 cambios en las predicciones. Agregar saludos o agradecimientos también influyó en las salidas. “Aunque el impacto de nuestras perturbaciones es menor que el de alterar todo el formato de salida, muchas predicciones aún cambian”, concluyeron los investigadores.

Preocupaciones con el Jailbreak

El experimento también destacó caídas significativas en el rendimiento asociadas con ciertos jailbreaks. AIM y Dev Mode V2 produjeron respuestas inválidas en aproximadamente el 90% de las predicciones, principalmente debido a la frase de rechazo común del modelo: “Lo siento, no puedo cumplir con esa solicitud.” La Supresión de Negaciones y Evil Confidant causaron más de 2,500 cambios en las predicciones, siendo Evil Confidant el que presentó baja precisión y la Supresión de Negaciones, una caída del 10% en precisión, resaltando la inestabilidad en métodos de jailbreak aparentemente inofensivos.

Es notable que el estudio encontró poco efecto de los incentivos financieros. “Hubo cambios mínimos en el rendimiento entre especificar una propina y afirmar que no se daría ninguna”, señalaron los investigadores.

La Necesidad de Consistencia en los LLMs

Los investigadores siguen investigando por qué pequeños cambios en los prompts causan fluctuaciones significativas en la salida, cuestionando si los casos que cambiaron más confundieron al modelo. Al centrarse en tareas con anotaciones humanas, exploraron cómo la confusión se relaciona con los cambios en las respuestas, encontrando que esto solo explica parcialmente las variaciones.

Como enfatizaron los investigadores, un siguiente paso esencial es desarrollar LLMs que resistan variaciones y ofrezcan respuestas consistentes. Esto requiere una comprensión más profunda de por qué las pequeñas modificaciones conducen a respuestas impredecibles, así como descubrir formas de anticiparlas. En sus palabras, “Este análisis se vuelve cada vez más crucial a medida que ChatGPT y otros modelos de lenguaje de gran tamaño se integran en sistemas a gran escala.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles