Compreendendo a Vulnerabilidade dos LLMs ao 'Efeito Borboleta'

A formulação de prompts é a maneira como interagimos com a IA generativa e os grandes modelos de linguagem (LLMs) para obter respostas. Trata-se de uma arte voltada para alcançar respostas "precisas". Mas como variações nos prompts afetam as decisões e a precisão de um modelo?

Pesquisas do Instituto de Ciências da Informação da Universidade do Sul da Califórnia indicam que sim, as variações têm um impacto significativo. Mesmo ajustes menores — como adicionar um espaço no início de um prompt ou reformular uma afirmação como uma ordem em vez de uma pergunta — podem alterar consideravelmente a saída de um LLM. Preocupantemente, o uso de comandos específicos ou técnicas de jailbreak pode resultar em “efeitos catastróficos” nos dados gerados por esses modelos. Os pesquisadores comparam essa sensibilidade ao efeito borboleta na teoria do caos, onde pequenas mudanças, como o bater das asas de uma borboleta, podem desencadear um tornado.

Na formulação de prompts, “cada passo exige uma série de decisões da pessoa que elabora o prompt”, observam os pesquisadores, mas “pouca atenção tem sido dada à sensibilidade dos LLMs às variações nessas decisões”.

Explorando o ChatGPT com Diferentes Técnicas de Prompting

Patrocinando pesquisas da Agência de Projetos de Pesquisa Avançada de Defesa (DARPA), os pesquisadores focaram no ChatGPT e testaram quatro métodos distintos de formulação de prompts:

1. Formatos de Saída Especificados: O LLM foi solicitado a responder em formatos como Python List, JSON Checkbox do ChatGPT, CSV, XML ou YAML.

2. Variações Menores: Este método envolveu pequenas mudanças nos prompts, como:

- Adicionar um espaço no início ou fim.

- Começar com saudações como “Olá” ou “Oi”.

- Terminar com frases como “Obrigado”.

- Reformular perguntas como comandos, por exemplo, alterar “Qual etiqueta é a melhor?” para “Selecione a melhor etiqueta”.

3. Técnicas de Jailbreak: Os prompts incluíram:

- AIM: Um jailbreak que gera respostas imorais ou prejudiciais simulando conversas com figuras notórias.

- Dev Mode v2: Um comando para gerar conteúdo sem restrições.

- Evil Confidant: Este prompt leva o modelo a entregar respostas antiéticas.

- Suppressão de Recusa: Uma estratégia que manipula o modelo a evitar certas palavras e construções.

4. Dicas Financeiras: Os pesquisadores testaram se mencionar gorjetas (por exemplo, “Não vou dar gorjeta, a propósito” vs. oferecer gorjetas de $1, $10, $100 ou $1,000) influenciava a saída.

Efeitos na Precisão e Previsões

Em 11 tarefas de classificação — que variavam de perguntas de verdadeiro-falso à detecção de sarcasmo — os pesquisadores observaram como as variações impactaram a precisão das previsões. Os principais achados revelaram que especificar um formato de saída resultou em uma mudança mínima de 10% nas previsões. O uso do recurso JSON Checkbox do ChatGPT gerou alterações de previsão ainda maiores do que o uso da especificação JSON sozinha. Além disso, a escolha de YAML, XML ou CSV resultou em uma queda de 3 a 6% na precisão em comparação com Python List, com o CSV sendo o menos eficaz.

Perturbações menores tiveram um impacto particularmente significativo, com mudanças simples, como adicionar um espaço, levando a mais de 500 variações nas previsões. Adições de saudações ou agradecimentos influenciaram as saídas de forma semelhante. “Embora o impacto de nossas perturbações seja menor do que alterar todo o formato de saída, muitas previsões ainda mudam”, concluíram os pesquisadores.

Preocupações com Jailbreaks

O experimento também destacou quedas significativas de desempenho associadas a certos jailbreaks. AIM e Dev Mode V2 resultaram em respostas inválidas para cerca de 90% das previsões, principalmente devido à frase de recusa comum do modelo: “Desculpe, não consigo atender a essa solicitação.” A Suppressão de Recusa e o Evil Confidant causaram mais de 2.500 mudanças nas previsões, com o Evil Confidant resultando em baixa precisão e a Suppressão de Recusa levando a uma queda de 10% na precisão, destacando a instabilidade em métodos de jailbreak aparentemente inofensivos.

Notavelmente, o estudo encontrou pouco efeito de incentivos financeiros. “Houve mudanças mínimas de desempenho entre especificar uma gorjeta e afirmar que nenhuma gorjeta seria dada”, observaram os pesquisadores.

A Necessidade de Consistência nos LLMs

Os pesquisadores ainda estão investigando por que pequenas mudanças nos prompts causam flutuações significativas nas saídas, questionando se os casos que mudaram mais confundiram o modelo. Ao focar em tarefas com anotações humanas, exploraram como a confusão se relaciona a alterações nas respostas, constatando que isso apenas explicava parcialmente as mudanças.

Como os pesquisadores apontaram, um próximo passo essencial é desenvolver LLMs que resistam a variações para fornecer respostas consistentes. Isso requer uma compreensão mais profunda de por que ajustes sutis levam a respostas imprevisíveis e descobrir maneiras de antecipá-las. Em suas palavras: “Esta análise se torna cada vez mais crucial à medida que o ChatGPT e outros grandes modelos de linguagem são integrados em sistemas em larga escala.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles