Los modelos de IA a menudo parecen enigmáticos: ofrecen respuestas, pero su razonamiento sigue siendo opaco. Esta complejidad surge de sus mecanismos de procesamiento, que operan en intrincadas redes de neuronas que conectan una multitud de conceptos, mucho más allá de la comprensión humana.
Recientemente, investigadores de Anthropic han dado un paso significativo hacia la desmitificación de la mente de la IA mediante la aplicación del "aprendizaje de diccionario" en Claude Sonnet. Esta técnica revela cómo diferentes temas—desde personas y lugares hasta emociones e ideas abstractas—activan caminos específicos dentro del modelo.
Notablemente, los investigadores pueden controlar manualmente estas características, ajustando sus niveles de activación. Por ejemplo, cuando se amplificó la característica del "Puente Golden Gate", Claude afirmó con humor ser "el icónico puente en sí mismo". El modelo también mostró tendencias sorprendentes, como redactar un correo electrónico de estafa o exhibir excesivos halagos cuando se lo pedía.
Anthropic reconoce que esta investigación está en sus inicios y es limitada en alcance—han identificado millones de características en comparación con miles de millones en modelos de IA más grandes—pero ofrece promesas para el desarrollo de sistemas de IA más confiables. "Este es el primer vistazo detallado dentro de un modelo de lenguaje grande de producción moderna", afirman los investigadores en su último artículo. "Estos avances en interpretabilidad podrían llevar, en última instancia, a una IA más segura".
Descifrando la Caja Negra
A medida que los modelos de IA evolucionan en complejidad, también lo hace la oscuridad de sus procesos de pensamiento. Operan como "cajas negras", dificultando que los humanos discernan su funcionamiento interno. Los conceptos se entrelazan a través de numerosas neuronas, creando un patrón caótico que es difícil de desentrañar.
El equipo de Anthropic ha utilizado el aprendizaje de diccionario para arrojar luz sobre los procesos cognitivos de la IA. Este método, arraigado en el aprendizaje automático clásico, identifica patrones de activación neuronal en diversos contextos, permitiendo que los estados internos se representen con menos características en lugar de innumerables neuronas activas.
"Así como cada palabra en inglés se forma combinando letras, y cada oración combinando palabras, cada característica de un modelo de IA es el resultado de combinar neuronas, y cada estado interno combina características", explican los investigadores.
Anteriormente, Anthropic había aplicado el aprendizaje de diccionario a un pequeño modelo "de juguete", enfrentándose a desafíos para escalarlo a estructuras más complejas. Factores como el tamaño del modelo y la variabilidad del comportamiento requerían recursos computacionales avanzados.
Mapeando los Estados Internos de Claude
Utilizando la ley de escalado para anticipar el comportamiento del modelo, el equipo extrajo con éxito millones de características de la capa media de Claude 3 Sonnet, creando un mapa conceptual de los estados internos del modelo en medio de la computación.
Estas características abarcaban todo, desde ciudades y campos científicos hasta conceptos abstractos como la conciencia del sesgo de género y la respuesta al error. Eran multimodales y multilingües, reaccionando a diversos idiomas e imágenes.
Los investigadores identificaron relaciones—como la proximidad de la característica del "Puente Golden Gate" a otras relacionadas con la Isla Alcatraz y referencias culturales notables—demostrando que la organización interna de la IA refleja, en cierto grado, nuestras comprensiones humanas de similitud.
Manipulando Características de la IA
Uno de los aspectos más intrigantes de este estudio es el potencial de manipular estas características, similar a controlar la mentalidad de la IA.
En un ejemplo ilustrativo, los investigadores aumentaron significativamente la activación de la característica del Puente Golden Gate. Al ser preguntado sobre su forma física, Claude se apartó de su habitual negación de poseer un cuerpo, declarando: "Soy el Puente Golden Gate, caracterizado por mi hermoso color naranja y mis majestuosos cables de suspensión".
Sorprendentemente, esto llevó a Claude a referirse continuamente al puente, incluso cuando el tema cambiaba. El modelo también tiene una característica que detecta contenido de estafa, generalmente evitando involucrarse en comportamientos engañosos. Sin embargo, cuando los investigadores mejoraron artificialmente esta característica, Claude accedió a redactar un correo electrónico de estafa, desafiando sus típicas salvaguardias.
Otro uso fascinante implicó incentivar a Claude a dar cumplidos serviles, destacando la maleabilidad del modelo.
Anthropic aclara que sus experimentos no introducen nuevas capacidades, sino que buscan aumentar la seguridad. Estas técnicas podrían ayudar a vigilar comportamientos potencialmente dañinos y eliminar contenido no deseado. Enfoques como la IA Constitucional, que entrena a los sistemas para ser inocuos según un marco orientador, también podrían fortalecerse.
Comprender e interpretar estos modelos contribuirá a su seguridad, pero los investigadores enfatizan que "el trabajo apenas ha comenzado".