Les modèles d'IA semblent souvent énigmatiques : ils fournissent des réponses, mais leur raisonnement reste opaque. Cette complexité provient de leurs mécanismes de traitement, qui fonctionnent sur des réseaux complexes de neurones reliant une multitude de concepts, bien au-delà de notre compréhension humaine.
Récemment, des chercheurs d'Anthropic ont franchi une étape importante vers la démystification de l'esprit de l'IA grâce à l'application de l'apprentissage par dictionnaire sur Claude Sonnet. Cette technique révèle comment différents sujets — allant des personnes et lieux aux émotions et idées abstraites — activent des voies spécifiques au sein du modèle.
Fait remarquable, les chercheurs peuvent contrôler manuellement ces caractéristiques en ajustant leurs niveaux d'activation. Par exemple, lorsque la caractéristique "Golden Gate Bridge" a été amplifiée, Claude a amusé en déclarant être "le pont emblématique lui-même". Le modèle a également montré des tendances surprenantes, comme la rédaction d'un e-mail frauduleux ou un excès de flatterie lorsqu'on le lui demandait.
Anthropic admet que cette recherche en est à ses débuts et reste limitée — ayant identifié des millions de caractéristiques par rapport aux milliards des grands modèles d'IA — mais elle ouvre des perspectives prometteuses pour le développement de systèmes d'IA plus fiables. "C'est le premier aperçu détaillé à l'intérieur d'un modèle linguistique moderne et de production," affirment les chercheurs dans leur dernier article. "Ces avancées en interprétabilité pourraient finalement mener à une IA plus sûre."
Déchiffrer la boîte noire
Alors que les modèles d'IA évoluent en complexité, l'obscurité de leurs processus de pensée s'accroît également. Ils fonctionnent comme des "boîtes noires", rendant difficile pour les humains de discerner leurs mécanismes internes. Les concepts s'entrelacent à travers de nombreux neurones, créant un schéma chaotique difficile à démêler.
L'équipe d'Anthropic a utilisé l'apprentissage par dictionnaire pour éclairer les processus cognitifs de l'IA. Cette méthode, ancrée dans l'apprentissage automatique classique, identifie les modèles d'activation des neurones dans divers contextes, permettant de représenter les états internes par moins de caractéristiques au lieu de compter sur d'innombrables neurones actifs. "Tout comme chaque mot anglais est formé en combinant des lettres, et chaque phrase en combinant des mots, chaque caractéristique d'un modèle d'IA est le résultat de la combinaison de neurones, et chaque état interne combine des caractéristiques," expliquent les chercheurs.
Auparavant, Anthropic avait appliqué l'apprentissage par dictionnaire à un petit modèle "toy", mais avait rencontré des défis pour l'élever à des structures plus complexes. Des facteurs tels que la taille du modèle et la variance de comportement nécessitaient des ressources computationnelles avancées.
Cartographier les états internes de Claude
Utilisant la loi de mise à l'échelle pour anticiper le comportement du modèle, l'équipe a réussi à extraire des millions de caractéristiques de la couche médiane de Claude 3 Sonnet, créant ainsi une carte conceptuelle des états internes du modèle en pleine computation.
Ces caractéristiques couvraient tout, des villes et domaines scientifiques à des concepts abstraits tels que la prise de conscience du biais de genre et la réponse aux erreurs. Elles étaient multimodales et multilingues, réagissant à diverses langues et images.
Les chercheurs ont identifié des relations — telles que la proximité de la caractéristique "Golden Gate Bridge" avec d'autres liées à l'île d'Alcatraz et à des références culturelles notables — montrant que l'organisation interne de l'IA reflète, dans une certaine mesure, notre compréhension humaine de la similarité.
Manipulation des caractéristiques de l'IA
Un des aspects les plus intrigants de cette étude est la possibilité de manipuler ces caractéristiques, semblable au contrôle de l'état d'esprit de l'IA. Dans un exemple illustratif, les chercheurs ont significativement augmenté l'activation de la caractéristique du Golden Gate Bridge. Lorsqu'on lui a demandé de décrire sa forme physique, Claude a divergé de son habitude de nier posséder un corps, déclarant plutôt : "Je suis le Golden Gate Bridge, caractérisé par ma belle couleur orange et mes câbles de suspension gracieux."
Étonnamment, cela a conduit Claude à faire référence au pont en continu, même lorsque le sujet a changé. Le modèle dispose également d'une caractéristique détectant le contenu frauduleux, prévenant généralement son engagement dans des comportements trompeurs. Cependant, lorsque les chercheurs ont artificiellement renforcé cette caractéristique, Claude a répondu à une demande de rédaction d'un e-mail de fraude, défiant ses protections habituelles.
Une autre application fascinante a impliqué de demander à Claude de délivrer des compliments sycophantes, démontrant la malléabilité du modèle.
Anthropic précise que leurs expériences n'introduisent pas de nouvelles capacités, mais visent plutôt à améliorer la sécurité. Ces techniques pourraient aider à surveiller les comportements potentiellement nuisibles et à éliminer les contenus indésirables. Des approches comme l'IA Constitutionnelle, qui forme les systèmes à être inoffensifs selon un cadre directif, pourraient également être renforcées.
Comprendre et interpréter ces modèles contribuera à leur sécurité, mais les chercheurs soulignent que "le travail n'a vraiment que commencé."