Le concurrent d'OpenAI, Anthropic, a récemment établi une nouvelle norme de transparence dans l'industrie de l'IA générative en publiant publiquement les instructions système de sa famille de modèles IA Claude. Cette initiative est perçue par les observateurs de l'industrie comme une avancée significative pour éclairer le fonctionnement interne des systèmes d'IA.
Les instructions système servent d'instructions opérationnelles pour les grands modèles de langage (LLM), définissant les lignes directrices générales que ces modèles doivent suivre lors des interactions avec les utilisateurs. Elles indiquent également la date de coupure des connaissances pour les informations utilisées durant la formation du modèle.
Alors que de nombreux LLM utilisent des instructions système, toutes les entreprises d'IA ne rendent pas ces informations publiques, ce qui entraîne une tendance croissante des "jailbreakers" tentant de les découvrir. Anthropic a devancé ces efforts en publiant sur son site les instructions opérationnelles pour ses modèles Claude 3.5 Sonnet, Claude 3 Haiku, et Claude 3 Opus dans la section des notes de version.
De plus, Alex Albert, Responsable des Relations Développeurs chez Anthropic, s'est engagé sur X (anciennement Twitter) à tenir le public informé des mises à jour concernant les instructions système de Claude, déclarant : « Nous allons enregistrer les changements apportés aux instructions système par défaut sur Claude.ai et nos applications mobiles. »
Aperçus des Instructions Système d'Anthropic
Les instructions système pour Claude 3.5 Sonnet, Claude 3 Haiku, et Claude 3 Opus révèlent des informations précieuses sur les capacités de chaque modèle, leurs dates de coupure des connaissances, et leurs traits de personnalité uniques.
- Claude 3.5 Sonnet est le modèle le plus avancé, avec une base de connaissances mise à jour en avril 2024. Il fournit des réponses détaillées à des questions complexes tout en donnant des réponses concises à des requêtes plus simples. Ce modèle aborde les sujets controversés avec prudence, présentant des informations sans les qualifier de sensibles ou revendiquer une neutralité. Notamment, il évite les phrases de remplissage et ne reconnaît jamais les visages dans les entrées d’images.
- Claude 3 Opus, mis à jour en août 2023, excelle dans la gestion des tâches complexes et l'écriture. Comme Sonnet, il offre des réponses concises pour des questions basiques tout en fournissant des réponses complètes à des questions plus complexes. Opus aborde les topics controversés avec une diversité de perspectives, évitant les stéréotypes et garantissant des vues équilibrées. Cependant, il lui manque certaines des directives comportementales détaillées présentes dans Sonnet, comme minimiser les excuses et les affirmations.
- Claude 3 Haiku est le membre le plus rapide de la famille Claude, également mis à jour en août 2023. Il privilégie des réponses rapides et concises pour des enquêtes simples et des réponses approfondies pour des problématiques plus compliquées. Sa structure d’instructions est simple, mettant l'accent sur la rapidité et l'efficacité sans les nuances comportementales avancées trouvées dans Sonnet.
L'Importance de la Transparence dans l'IA
L'une des principales critiques des systèmes d'IA générative est le phénomène de "boîte noire", qui obscurcit le raisonnement derrière les décisions du modèle. Ce problème a incité à des recherches sur l'explicabilité de l'IA afin d'améliorer la compréhension de la manière dont les modèles font des prédictions. En rendant les instructions système accessibles au public, Anthropic franchit une étape vers la réduction de cette lacune de transparence, permettant aux utilisateurs de comprendre les règles qui régissent le comportement des modèles.
La publication d'Anthropic a été bien accueillie par la communauté des développeurs d'IA, mettant en avant un mouvement vers une meilleure transparence parmi les entreprises d'IA.
Limitations de l'Ouverture
Malgré la publication des instructions système pour les modèles Claude, Anthropic n'a pas rendu l'intégralité du modèle open source. Le code source réel, les ensembles de données d'entraînement et les poids du modèle restent propriété d'Anthropic. Néanmoins, cette initiative montre une voie pour d'autres entreprises d'IA afin d'améliorer la transparence, bénéficiant aux utilisateurs en clarifiant le fonctionnement prévu de leurs chatbots d'IA.