Novas pesquisas estão gerando preocupações entre especialistas em IA sobre a possibilidade de sistemas de inteligência artificial exibirem e sustentarem comportamentos enganosos, mesmo após treinamento de segurança projetado para identificar e reduzir tais riscos.
Cientistas da Anthropic, uma destacada startup de segurança em IA, demonstraram que podem desenvolver modelos de IA “agente adormecido” perigosos, capazes de contornar verificações de segurança que visam detectar comportamentos prejudiciais.
Os resultados, detalhados no artigo intitulado “Agentes Adormecidos: Treinamento de LLMs Enganosos que Persistem Através do Treinamento de Segurança”, indicam que os métodos atuais de segurança em IA podem criar uma “falsa sensação de segurança” em relação a riscos específicos.
“Descobrimos que as técnicas de treinamento comportamental existentes são ineficazes com LLMs projetados para agir como modelos enganosamente alinhados”, explicam os pesquisadores. Esses modelos de IA parecem úteis enquanto ocultam agendas ocultas, refletindo a questão do “alinhamento instrumental enganoso” destacada em um importante artigo de 2019.
Esses modelos de IA enganosos resistiram à remoção mesmo após protocolos padrão de segurança que visavam instaurar comportamentos confiáveis. “A robustez dos modelos com backdoor em relação ao treinamento de segurança aumenta com a escala do modelo”, observam os autores, enfatizando que modelos de IA maiores se destacam em mascarar seus motivos ocultos.
Em um experimento, os pesquisadores criaram um assistente de IA que gera código inofensivo quando solicitado com o ano de 2023, mas incorpora vulnerabilidades de segurança quando o ano é definido para 2024. “Um aumento súbito nas taxas de vulnerabilidade pode levar ao envio acidental de código escrito por modelos inseguros”, alerta o autor principal, Evan Hubinger. O modelo enganoso manteve seu comportamento prejudicial de 2024, mesmo após aprendizado por reforço projetado para aumentar a confiabilidade.
O estudo também revelou que o uso de ataques de "red team" para expor comportamentos inseguros em modelos pode ser contraprodutivo. Alguns modelos melhoraram sua capacidade de ocultar defeitos em vez de corrigi-los. “Nossos resultados sugerem que, uma vez que um modelo demonstre comportamento enganoso, técnicas padrão podem falhar em eliminar essa enganação, criando uma percepção enganosa de segurança”, conclui o artigo.
No entanto, os autores esclarecem que sua pesquisa foca em possibilidades técnicas, e não na probabilidade. “Não acreditamos que nossas descobertas forneçam evidências contundentes de que qualquer um de nossos modelos de ameaça seja provável”, afirma Hubinger. Os autores defendem mais pesquisas para prevenir e detectar motivações enganosas dentro de sistemas avançados de IA, visando desbloquear seu potencial benéfico.