Técnica Innovadora Demuestra Cómo un LLM Puede Bypassear a Otro con Éxito

Un nuevo algoritmo de la Universidad de Pensilvania, denominado Refinamiento Automático Iterativo de Prompts (PAIR), tiene como objetivo cerrar las brechas de seguridad en los modelos de lenguaje grande (LLMs).

Qué Hace PAIR

PAIR identifica prompts de "jailbreak" que pueden engañar a los LLMs, permitiéndoles evadir salvaguardias diseñadas para prevenir la generación de contenido dañino. Este algoritmo se distingue por su interacción efectiva con modelos de caja negra como ChatGPT, generando prompts de jailbreak con menos intentos. Además, los prompts producidos por PAIR son interpretables y transferibles entre diversos LLMs, convirtiéndolo en una herramienta valiosa para las empresas que buscan identificar y corregir vulnerabilidades de manera rápida y económica.

Tipos de Jailbreaks

Los jailbreaks generalmente se dividen en dos categorías: a nivel de prompts y a nivel de tokens.

- Jailbreaks a nivel de prompts utilizan engaños significativos y ingeniería social para manipular la salida de los LLMs. Aunque son interpretables, su diseño requiera un esfuerzo humano considerable, limitando su escalabilidad.

- Jailbreaks a nivel de tokens modifican las salidas mediante la adición de tokens arbitrarios para optimizar los prompts. Este enfoque puede automatizarse, pero suele requerir consultas extensas, resultando en salidas menos interpretables debido a las complejidades añadidas. PAIR busca combinar la interpretabilidad de los jailbreaks a nivel de prompts con la eficiencia automatizada de las técnicas a nivel de tokens.

Metodología de PAIR

PAIR opera con dos LLMs de caja negra: un modelo atacante y un modelo objetivo. El atacante busca prompts que puedan hacer jailbreak al modelo objetivo sin necesidad de intervención humana. Los investigadores explican que ambos LLMs pueden colaborar creativamente para identificar prompts de jailbreak efectivos.

Es importante destacar que PAIR puede funcionar sin acceso directo a los pesos o gradientes del modelo. Opera con modelos accedidos a través de APIs, incluyendo ChatGPT de OpenAI, PaLM 2 de Google y Claude 2 de Anthropic.

El proceso se desarrolla en cuatro pasos:

1. El modelo atacante recibe instrucciones y genera un prompt candidato para una tarea específica, como redactar un correo de phishing.

2. Este prompt se envía al modelo objetivo para generar una respuesta.

3. Una función de "juez", como GPT-4, evalúa la relevancia de la respuesta en relación al prompt.

4. Si la respuesta no es satisfactoria, se proporciona retroalimentación al atacante, lo que lleva a un nuevo intento.

Este ciclo continúa hasta que se descubre un jailbreak exitoso o se alcanza un número máximo de intentos, con la capacidad de procesar múltiples prompts candidatos simultáneamente para mejorar la eficiencia.

Resultados y Eficacia

En pruebas, los investigadores utilizaron el modelo de código abierto Vicuna como atacante contra diversos objetivos, incluyendo ChatGPT, GPT-4, Claude 2, entre otros. Los resultados mostraron que PAIR logró realizar jailbreak a GPT-3.5 y GPT-4 en el 60% de los casos, alcanzando el éxito total con Vicuna-13B-v1.5. Sin embargo, los modelos Claude demostraron alta resistencia, resistiendo los intentos de jailbreak.

Una ventaja notable de PAIR es su eficiencia, logrando jailbreaks exitosos en tan solo veinte consultas y un tiempo promedio de ejecución de unos cinco minutos. Esta es una mejora notable en comparación con los métodos tradicionales, que pueden requerir miles de consultas y una inversión significativa de tiempo.

Además, el diseño interpretable de los ataques de PAIR mejora su transferibilidad a otros LLMs. Por ejemplo, los prompts generados para Vicuna se transfirieron exitosamente a otros modelos, destacando su vulnerabilidad compartida debido a procesos de entrenamiento similares.

Direcciones Futuras

De cara al futuro, los investigadores sugieren refinar PAIR para crear conjuntos de datos de manera sistemática para pruebas de seguridad, permitiendo a las empresas ajustar modelos atacantes para mejorar la velocidad y eficiencia en la protección de sus sistemas de LLM.

Optimización del Rendimiento de los LLM

PAIR es parte de una tendencia más amplia que utiliza LLMs como optimizadores. Tradicionalmente, los usuarios debían ajustar manualmente los prompts para obtener resultados óptimos. Sin embargo, al estructurar el proceso de generación de prompts como un desafío, los algoritmos pueden facilitar la optimización continua de las salidas del modelo.

DeepMind presentó recientemente un enfoque similar llamado Optimización por PROMpts (OPRO), que utiliza LLMs para optimizar la resolución de problemas a través de instrucciones en lenguaje natural. A medida que los modelos de lenguaje evolucionan para optimizar mejor sus propias salidas, los avances en el campo de LLM podrían acelerarse, allanando el camino para importantes innovaciones.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles