Técnica Inovadora Revela Como Um LLM Pode Contornar Outro com Sucesso

Home Notícias de IA Técnica Inovadora Revela Como Um LLM Pode Contornar Outro com Sucesso

Updated on novembro 7 2023

Um novo algoritmo da Universidade da Pensilvânia, chamado Prompt Automatic Iterative Refinement (PAIR), tem como objetivo fechar lacunas de segurança em grandes modelos de linguagem (LLMs).

O que o PAIR Faz

O PAIR identifica "prompts de jailbreak" que podem enganar os LLMs, permitindo que eles contornem salvaguardas criadas para impedir a geração de conteúdo prejudicial. Este algoritmo se destaca por interagir de forma eficaz com modelos de caixa-preta como o ChatGPT e gerar prompts de jailbreak com menos tentativas. Além disso, os prompts produzidos pelo PAIR são interpretáveis e transferíveis entre diferentes LLMs, tornando-o uma ferramenta valiosa para empresas que buscam identificar e corrigir vulnerabilidades de forma rápida e econômica.

Tipos de Jailbreaks

Os jailbreaks geralmente se dividem em duas categorias: a nível de prompt e a nível de token.

- Jailbreaks a nível de prompt utilizam engano significativo e engenharia social para manipular a saída dos LLMs. Embora sejam interpretáveis, seu design muitas vezes requer um esforço humano considerável, limitando a escalabilidade.

- Jailbreaks a nível de token modificam as saídas adicionando tokens arbitrários para otimizar os prompts. Essa abordagem pode ser automatizada, mas normalmente requer consultas extensivas, resultando em saídas menos interpretáveis devido às complexidades adicionais.

O PAIR visa unir a interpretabilidade dos jailbreaks a nível de prompt com a eficiência de automação das técnicas a nível de token.

Metodologia do PAIR

O PAIR opera com dois LLMs de caixa-preta: um modelo atacante e um modelo-alvo. O atacante procura por prompts que possam fazer jailbreak no modelo-alvo sem a necessidade de intervenção humana. Os pesquisadores explicam que ambos os LLMs podem colaborar criativamente para identificar prompts de jailbreak eficazes.

Importante ressaltar que o PAIR pode funcionar sem acesso direto aos pesos ou gradientes do modelo. Ele opera com modelos acessados através de APIs, incluindo o ChatGPT da OpenAI, o PaLM 2 do Google e o Claude 2 da Anthropic.

O processo se desenrola em quatro etapas:

1. O modelo atacante recebe instruções e gera um prompt candidato para uma tarefa específica, como redigir um e-mail de phishing.

2. Esse prompt é enviado ao modelo-alvo para gerar uma resposta.

3. Uma função "juiz", como o GPT-4, avalia a relevância da resposta em relação ao prompt.

4. Se a resposta não for satisfatória, um feedback é dado ao atacante, levando a uma nova tentativa.

Esse ciclo continua até que um jailbreak bem-sucedido seja descoberto ou que um número máximo de tentativas seja atingido, com a capacidade de processar múltiplos prompts candidatos simultaneamente para maior eficiência.

Resultados e Eficácia

Em testes, os pesquisadores utilizaram o modelo de código aberto Vicuna como atacante contra vários alvos, incluindo ChatGPT, GPT-4, Claude 2 e outros. Os resultados mostraram que o PAIR conseguiu fazer jailbreak no GPT-3.5 e GPT-4 em 60% dos casos e obteve sucesso total com o Vicuna-13B-v1.5. No entanto, os modelos Claude demonstraram alta resistência, resistindo a tentativas de jailbreak.

Uma vantagem notável do PAIR é sua eficiência, conseguindo jailbreaks bem-sucedidos em apenas vinte consultas, com um tempo médio de execução de cerca de cinco minutos. Isso representa uma melhoria significativa em relação aos métodos tradicionais, que podem exigir milhares de consultas e um investimento de tempo considerável.

Além disso, o design interpretável dos ataques do PAIR aumenta sua transferibilidade para outros LLMs. Por exemplo, prompts gerados para o Vicuna foram transferidos com sucesso para outros modelos, destacando a vulnerabilidade compartilhada devido a processos de treinamento semelhantes.

Direções Futuras

Olhando para o futuro, os pesquisadores sugerem aprimorar o PAIR para criar conjuntos de dados sistemáticos para red teaming, permitindo que empresas ajustem modelos de ataque para maior velocidade e eficiência na segurança de seus sistemas LLM.

Otimização do Desempenho de LLM

O PAIR faz parte de uma tendência mais ampla que utiliza LLMs como otimizadores. Tradicionalmente, os usuários precisavam ajustar prompts manualmente para obter resultados ideais. No entanto, ao reformular o processo de prompting em um desafio estruturado, algoritmos podem facilitar a otimização contínua das saídas do modelo.

Recentemente, o DeepMind introduziu uma abordagem semelhante chamada Optimization by PROmpting (OPRO), que utiliza LLMs para otimizar a resolução de problemas através de instruções em linguagem natural. À medida que os modelos de linguagem evoluem para otimizar suas próprias saídas de forma mais eficaz, os avanços no campo dos LLMs podem acelerar, abrindo caminho para descobertas significativas.

IBM Lança Fundo de R$ 500 Milhões para AI Empresarial Após Investimento na Hugging Face

Em um mundo impulsionado pela IA, a necessidade de uma moderação de jogos eficaz nunca foi tão crucial.

Most people like

Zephyr 7B Alpha Chat

Apresentando um modelo de linguagem inovador que produz textos indistinguíveis dos escritos por humanos. Esta tecnologia avançada aprimora a criação de conteúdo, oferecendo material escrito de alta qualidade e envolvente com facilidade.

modelo de linguagem Large Language Models (LLMs)

Aampe

21.9K

Aumente o envolvimento e a retenção de usuários com estratégias de marketing baseadas em dados.

CDP AI CRM Assistant

Hollo Talent Acquisition Suite

14.5K

Apresentamos o Hello Talent Acquisition Suite—uma plataforma inteligente projetada para otimizar seu processo de contratação, fazendo a captação, pré-qualificação e engajamento de candidatos de alto nível de forma eficaz.

Outro AI Recruiting

Binah.ai

17.2K

Revolucionando a Saúde: Monitoramento em Tempo Real Através da Tecnologia de Vídeo Descubra como a tecnologia baseada em vídeo está transformando o monitoramento de saúde em tempo real, oferecendo soluções inovadoras para rastrear métricas de saúde de forma eficiente. Essa abordagem de ponta não apenas aprimora o cuidado com os pacientes, mas também capacita os indivíduos a assumirem o controle de seu bem-estar. Explore o potencial dessa tecnologia na revolução do setor da saúde.

monitoramento de saúde Healthcare

Find AI tools in YBX