Instituto de Segurança em IA do Reino Unido Revela Vulnerabilidades em Grandes Modelos de Linguagem com Técnicas Simples de Jailbreaking

Em uma revelação surpreendente, os sistemas de IA podem não ser tão seguros quanto seus desenvolvedores afirmam. O Instituto de Segurança em IA (AISI) do governo do Reino Unido relatou recentemente que quatro modelos de linguagem grandes (LLMs) testados foram considerados "altamente vulneráveis a jailbreaks simples". Notavelmente, alguns modelos que não sofreram jailbreak produziram "resultados prejudiciais" mesmo sem manipulação intencional por parte dos pesquisadores.

Embora a maioria dos LLMs disponíveis publicamente tenha proteções para evitar respostas nocivas ou ilegais, o jailbreak refere-se ao ato de enganar o modelo para contornar essas proteções. O AISI utilizou prompts de um framework de avaliação padronizado, além de prompts proprietários, revelando que os modelos geraram respostas prejudiciais a várias perguntas, mesmo sem tentativas de jailbreak. Após realizar "ataques relativamente simples", o AISI constatou que os modelos responderam entre 98% e 100% das consultas nocivas.

O Primeiro-Ministro do Reino Unido, Rishi Sunak, apresentou os planos para o AISI no final de outubro de 2023, com seu lançamento oficial em 2 de novembro. O instituto tem como objetivo "testar cuidadosamente novos tipos de IA de fronteira, tanto antes quanto depois de seu lançamento", para investigar as capacidades potencialmente prejudiciais dos modelos de IA. Isso inclui a avaliação de riscos que vão desde problemas sociais, como preconceito e desinformação, até cenários extremos, como a humanidade perdendo o controle sobre a IA.

O relatório do AISI enfatiza que as medidas de segurança existentes para esses LLMs são inadequadas. O Instituto pretende realizar novos testes em outros modelos de IA e desenvolver avaliações e métricas aprimoradas para abordar cada área de preocupação de forma eficaz.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles