Um novo algoritmo da Universidade da Pensilvânia, chamado Prompt Automatic Iterative Refinement (PAIR), tem como objetivo fechar lacunas de segurança em grandes modelos de linguagem (LLMs).
O que o PAIR Faz
O PAIR identifica "prompts de jailbreak" que podem enganar os LLMs, permitindo que eles contornem salvaguardas criadas para impedir a geração de conteúdo prejudicial. Este algoritmo se destaca por interagir de forma eficaz com modelos de caixa-preta como o ChatGPT e gerar prompts de jailbreak com menos tentativas. Além disso, os prompts produzidos pelo PAIR são interpretáveis e transferíveis entre diferentes LLMs, tornando-o uma ferramenta valiosa para empresas que buscam identificar e corrigir vulnerabilidades de forma rápida e econômica.
Tipos de Jailbreaks
Os jailbreaks geralmente se dividem em duas categorias: a nível de prompt e a nível de token.
- Jailbreaks a nível de prompt utilizam engano significativo e engenharia social para manipular a saída dos LLMs. Embora sejam interpretáveis, seu design muitas vezes requer um esforço humano considerável, limitando a escalabilidade.
- Jailbreaks a nível de token modificam as saídas adicionando tokens arbitrários para otimizar os prompts. Essa abordagem pode ser automatizada, mas normalmente requer consultas extensivas, resultando em saídas menos interpretáveis devido às complexidades adicionais.
O PAIR visa unir a interpretabilidade dos jailbreaks a nível de prompt com a eficiência de automação das técnicas a nível de token.
Metodologia do PAIR
O PAIR opera com dois LLMs de caixa-preta: um modelo atacante e um modelo-alvo. O atacante procura por prompts que possam fazer jailbreak no modelo-alvo sem a necessidade de intervenção humana. Os pesquisadores explicam que ambos os LLMs podem colaborar criativamente para identificar prompts de jailbreak eficazes.
Importante ressaltar que o PAIR pode funcionar sem acesso direto aos pesos ou gradientes do modelo. Ele opera com modelos acessados através de APIs, incluindo o ChatGPT da OpenAI, o PaLM 2 do Google e o Claude 2 da Anthropic.
O processo se desenrola em quatro etapas:
1. O modelo atacante recebe instruções e gera um prompt candidato para uma tarefa específica, como redigir um e-mail de phishing.
2. Esse prompt é enviado ao modelo-alvo para gerar uma resposta.
3. Uma função "juiz", como o GPT-4, avalia a relevância da resposta em relação ao prompt.
4. Se a resposta não for satisfatória, um feedback é dado ao atacante, levando a uma nova tentativa.
Esse ciclo continua até que um jailbreak bem-sucedido seja descoberto ou que um número máximo de tentativas seja atingido, com a capacidade de processar múltiplos prompts candidatos simultaneamente para maior eficiência.
Resultados e Eficácia
Em testes, os pesquisadores utilizaram o modelo de código aberto Vicuna como atacante contra vários alvos, incluindo ChatGPT, GPT-4, Claude 2 e outros. Os resultados mostraram que o PAIR conseguiu fazer jailbreak no GPT-3.5 e GPT-4 em 60% dos casos e obteve sucesso total com o Vicuna-13B-v1.5. No entanto, os modelos Claude demonstraram alta resistência, resistindo a tentativas de jailbreak.
Uma vantagem notável do PAIR é sua eficiência, conseguindo jailbreaks bem-sucedidos em apenas vinte consultas, com um tempo médio de execução de cerca de cinco minutos. Isso representa uma melhoria significativa em relação aos métodos tradicionais, que podem exigir milhares de consultas e um investimento de tempo considerável.
Além disso, o design interpretável dos ataques do PAIR aumenta sua transferibilidade para outros LLMs. Por exemplo, prompts gerados para o Vicuna foram transferidos com sucesso para outros modelos, destacando a vulnerabilidade compartilhada devido a processos de treinamento semelhantes.
Direções Futuras
Olhando para o futuro, os pesquisadores sugerem aprimorar o PAIR para criar conjuntos de dados sistemáticos para red teaming, permitindo que empresas ajustem modelos de ataque para maior velocidade e eficiência na segurança de seus sistemas LLM.
Otimização do Desempenho de LLM
O PAIR faz parte de uma tendência mais ampla que utiliza LLMs como otimizadores. Tradicionalmente, os usuários precisavam ajustar prompts manualmente para obter resultados ideais. No entanto, ao reformular o processo de prompting em um desafio estruturado, algoritmos podem facilitar a otimização contínua das saídas do modelo.
Recentemente, o DeepMind introduziu uma abordagem semelhante chamada Optimization by PROmpting (OPRO), que utiliza LLMs para otimizar a resolução de problemas através de instruções em linguagem natural. À medida que os modelos de linguagem evoluem para otimizar suas próprias saídas de forma mais eficaz, os avanços no campo dos LLMs podem acelerar, abrindo caminho para descobertas significativas.