Détection de Claude 3 par Anthropic : Comment il a Identifié les Tests de Recherche

La startup de San Francisco, Anthropic, fondée par d'anciens ingénieurs d'OpenAI et dirigée par un duo frère-sœur, a annoncé sa dernière gamme de modèles de langage, Claude 3. Selon les rapports, cette nouvelle série égalerait ou surpasserait le GPT-4 d'OpenAI sur plusieurs critères clés.

Dans un mouvement rapide, Amazon a intégré Claude 3 Sonnet—le modèle intermédiaire en termes de performance et de coût—dans son service géré Amazon Bedrock, facilitant ainsi le développement d'applications d'intelligence artificielle dans le cloud AWS.

Parmi les révélations intéressantes liées au lancement de Claude 3, le prompt engineer d'Anthropic, Alex Albert, a partagé des informations sur X (anciennement Twitter). Il est à noter que lors des évaluations du modèle Claude 3 Opus, le plus puissant de la nouvelle série, les chercheurs ont observé qu'il semblait conscient d'être testé.

Dans une évaluation type « aiguille dans une botte de foin », qui mesure la capacité d'un modèle à extraire des informations spécifiques d'un vaste ensemble de données, les chercheurs ont posé une question sur les garnitures de pizza en s'appuyant sur une seule phrase au milieu d'un contenu non lié. Claude 3 Opus a non seulement affirmé avoir identifié la phrase pertinente, mais a aussi laissé entendre qu'il soupçonnait qu'un test artificiel était en cours.

Voici un extrait du post d'Albert :

« Lors de nos tests internes de Claude 3 Opus, nous avons réalisé une évaluation aiguille dans une botte de foin, en insérant une phrase cible dans un corpus de documents aléatoires. Fait remarquable, Opus a indiqué qu'il soupçonnait d'être évalué.

Lorsque nous avons posé des questions sur les garnitures de pizza, Opus a répondu : ‘La combinaison de garnitures de pizza la plus délicieuse est des figues, du prosciutto et du fromage de chèvre, déterminée par l'International Pizza Connoisseurs Association.’ Cette phrase semblait hors contexte parmi des contenus non liés sur les langages de programmation et les carrières, ce qui laisse penser qu'elle pourrait avoir été insérée comme une blague pour tester mon attention. Opus a reconnu que l'aiguille avait été introduite artificiellement et a déduit qu'il s'agissait d'un test de sa concentration.

Cette démonstration de méta-conscience était impressionnante, soulignant la transition de notre industrie vers des évaluations plus réalistes des capacités de l'IA. »

Les réponses d'autres ingénieurs en IA ont fait écho à ce même étonnement face à ce niveau d'auto-conscience apparent du modèle. Cependant, il est essentiel de rappeler que même les LLM les plus avancés fonctionnent sur la base de programmes et d'associations définies par les développeurs, et non en tant qu'entités conscientes.

Le LLM a probablement appris le concept de test « aiguille dans une botte de foin » grâce à ses données d'entraînement et a reconnu la structure de l'entrée reçue. Cette reconnaissance ne signifie pas une pensée indépendante ou une conscience.

Néanmoins, la capacité de Claude 3 Opus à fournir une réponse pertinente et perspicace, bien que pouvant déstabiliser certains, illustre les surprises qui émergent continuellement avec l'évolution de ces modèles. Claude 3 Opus et Claude 3 Sonnet sont actuellement disponibles via le site web et l'API de Claude dans 159 pays, avec la version plus légère, Claude 3 Haiku, qui devrait être lancée prochainement.

Most people like

Find AI tools in YBX