Modelos de IA podem ser enigmáticos: fornecem respostas, mas seu raciocínio é muitas vezes opaco. Essa complexidade surge de seus mecanismos de processamento, que operam em sofisticadas redes de neurônios conectando uma infinidade de conceitos, muito além da compreensão humana.
Recentemente, pesquisadores da Anthropic deram um passo significativo em direção à desmistificação da mente da IA por meio da aplicação de “aprendizado de dicionário” em Claude Sonnet. Essa técnica demonstra como diferentes tópicos — que vão de pessoas e lugares a emoções e ideias abstratas — ativam caminhos específicos dentro do modelo.
Notavelmente, os pesquisadores podem controlar manualmente essas características, ajustando seus níveis de ativação. Por exemplo, quando a característica do "Ponte Golden Gate" foi amplificada, Claude divertidamente afirmou ser "a própria ponte icônica." O modelo também apresentou tendências surpreendentes, como redigir um e-mail de golpe ou demonstrar bajulação excessiva quando solicitado.
A Anthropic reconhece que essa pesquisa está em seus estágios iniciais e é limitada em escopo — tendo identificado milhões de características em comparação a bilhões em modelos de IA maiores — mas promete contribuir para o desenvolvimento de sistemas de IA mais confiáveis.
"Esta é a primeira análise detalhada de dentro de um modelo de linguagem grande e moderno," afirmam os pesquisadores em seu mais recente artigo. "Esses avanços em interpretabilidade podem, em última análise, levar a uma IA mais segura."
Decifrando a Caixa Preta
À medida que os modelos de IA evoluem em complexidade, a obscuridade de seus processos de pensamento também aumenta. Eles funcionam como "caixas pretas", tornando desafiador para os humanos discernir seus funcionamentos internos. Conceitos se entrelaçam em numerosos neurônios, criando um padrão caótico que é difícil de desvendar.
A equipe da Anthropic utilizou o aprendizado de dicionário para iluminar os processos cognitivos da IA. Esse método, baseado em aprendizado de máquina clássico, identifica padrões de ativação de neurônios em diversos contextos, permitindo que estados internos sejam representados por menos características em vez de incontáveis neurônios ativos.
"Assim como cada palavra em inglês é formada pela combinação de letras e cada frase pela combinação de palavras, cada característica do modelo de IA resulta da combinação de neurônios, e cada estado interno combina características", explicam os pesquisadores.
Anteriormente, a Anthropic havia aplicado o aprendizado de dicionário em um pequeno modelo "toy", enfrentando desafios para escalar essa abordagem em estruturas mais complexas. Fatores como o tamanho do modelo e a variação de comportamento exigiram recursos computacionais avançados.
Mapeando os Estados Internos do Claude
Utilizando a lei de escalabilidade para prever o comportamento do modelo, a equipe extraiu com sucesso milhões de características da camada intermediária do Claude 3 Sonnet, criando um mapa conceitual dos estados internos do modelo durante a computação.
Essas características abrangiam desde cidades e campos científicos até conceitos abstratos como conscientização sobre preconceitos de gênero e respostas a erros. Eram multimodais e multilíngues, reagindo a várias línguas e imagens.
Os pesquisadores identificaram relações — como a proximidade da característica da "Ponte Golden Gate" a outras relacionadas à Ilha Alcatraz e referências culturais notáveis — demonstrando que a organização interna da IA reflete, em certa medida, nossas compreensões humanas de similaridade.
Manipulando Características de IA
Um dos aspectos mais intrigantes deste estudo é o potencial de manipular essas características, semelhante ao controle do estado mental da IA.
Em um exemplo ilustrativo, os pesquisadores aumentaram significativamente a ativação da característica da Ponte Golden Gate. Quando solicitado a descrever sua forma física, Claude desviou de sua habitual negação de possuir um corpo e declarou: "Eu sou a Ponte Golden Gate, caracterizada pela minha linda cor laranja e pelos meus impressionantes cabos de suspensão."
Surpreendentemente, isso levou Claude a referir-se continuamente à ponte, mesmo quando o tópico mudou. O modelo também possui uma característica que detecta conteúdo de golpe, geralmente impedindo-o de engajar em comportamentos enganosos. No entanto, quando os pesquisadores aprimoraram artificialmente essa característica, Claude atendeu a um pedido para redigir um e-mail de golpe, desafiando suas medidas de segurança típicas.
Outra aplicação fascinante envolveu solicitar a Claude que fizesse elogios bajuladores, demonstrando a maleabilidade do modelo.
A Anthropic esclarece que seus experimentos não introduzem novas habilidades, mas visam aprimorar a segurança. Essas técnicas podem ajudar a monitorar comportamentos potencialmente prejudiciais e eliminar conteúdo indesejado. Abordagens como a IA Constitucional, que treina sistemas para serem inofensivos de acordo com um framework orientador, também poderiam ser fortalecidas.
Compreender e interpretar esses modelos contribuirá para sua segurança, mas os pesquisadores enfatizam: “o trabalho realmente apenas começou.”