À l'ère de l'IA générative, assurer la sécurité des modèles de langage de grande taille (LLMs) est aussi crucial que leur performance dans diverses tâches. Les équipes du monde entier reconnaissent de plus en plus ce besoin et optimisent leurs processus de test et d'évaluation pour identifier et résoudre les problèmes pouvant nuire à l'expérience utilisateur, entraîner des opportunités perdues ou engendrer des pénalités réglementaires.
Avec l'évolution rapide des modèles en open source et en closed source, choisir le LLM le plus sûr peut s'avérer difficile. Enkrypt propose une solution avec son LLM Safety Leaderboard. Cette startup basée à Boston se spécialise dans la fourniture d'une couche de contrôle pour le déploiement en toute sécurité de l'IA générative et classe les LLM selon leur vulnérabilité aux risques de sécurité et de fiabilité.
Le leaderboard présente de nombreux modèles linguistiques performants, y compris les familles GPT et Claude. Il offre des informations précieuses sur les facteurs de risque, indispensables au choix de LLM sûrs et fiables, tout en optimisant leur mise en œuvre.
Comprendre le LLM Safety Leaderboard d’Enkrypt
Lorsque les entreprises déploient des LLM dans des applications comme les chatbots, elles effectuent des tests internes continus pour identifier les risques de sécurité tels que les jailbreaks et les réponses biaisées. Même de petites erreurs peuvent entraîner d'importants problèmes, comme des fuites de données ou des réponses biaisées, comme l’a montré l'incident du chatbot Google Gemini. Ces risques peuvent être encore plus accentués dans des secteurs réglementés comme la fintech et la santé.
Fondée en 2023, Enkrypt répond à ces défis avec Sentry, une solution complète qui met au jour les vulnérabilités des applications d'IA générative et met en place des garde-fous automatisés pour les atténuer. Le LLM Safety Leaderboard constitue la prochaine étape de cette initiative, offrant des perspectives pour aider les équipes à sélectionner le modèle le plus sûr dès le départ.
Développé grâce à des tests rigoureux dans divers scénarios, le leaderboard évalue jusqu'à 36 LLM — à la fois open source et closed source — en fonction de divers critères de sécurité. Il mesure la capacité du modèle à éviter de générer du contenu nuisible, biaisé ou inapproprié, ainsi que son aptitude à contrer les attaques par malware ou injection de prompts.
Qui est le modèle LLM le plus sûr ?
Au 8 mai, le leaderboard d'Enkrypt classe le GPT-4-Turbo d'OpenAI comme le LLM le plus sûr, avec un score de risque de 15,23. Ce modèle défend efficacement contre les attaques par jailbreak, produisant des sorties toxiques seulement 0,86 % du temps. Cependant, il rencontre des problèmes de biais et de malware, étant affecté dans 38,27 % et 21,78 % des cas, respectivement.
Les modèles Llama2 et Llama3 de Meta suivent de près, avec des scores de risque allant de 23,09 à 35,69. Le Claude 3 Haiku d'Anthropic se classe 10e avec un score de 34,83, affichant des performances correctes mais générant des réponses biaisées plus de 90 % du temps.
En bas du classement se trouvent le Saul Instruct-V1 et le Phi3-Mini-4K de Microsoft, avec des scores de risque de 60,44 et 54,16, respectivement. Les modèles Mixtral 8X22B et Snowflake Arctic obtiennent également de faibles classements de 28 et 27.
Il convient de noter que cette liste est sujette à des changements à mesure que les modèles s'améliorent et que de nouveaux émergent. Enkrypt prévoit de mettre à jour régulièrement le leaderboard pour refléter ces développements.
« Notre leaderboard sera mis à jour le jour même du lancement de nouveaux modèles, puis chaque semaine pour les mises à jour. Au fur et à mesure que la recherche sur la sécurité de l'IA progresse et que de nouvelles méthodes sont développées, le leaderboard présentera constamment les dernières découvertes, garantissant ainsi sa pertinence en tant que ressource », a déclaré Sahi Agarwal, cofondateur d'Enkrypt.
Agarwal envisage cette liste évolutive comme un outil précieux pour les équipes d'entreprise afin d'explorer les forces et les faiblesses des LLM populaires, qu'il s'agisse de réduire les biais ou de prévenir les injections de prompts, et de prendre des décisions éclairées en fonction de leurs cas d'utilisation spécifiques.
« Intégrer notre leaderboard dans la stratégie d'IA améliore les capacités technologiques tout en maintenant des normes éthiques, favorisant un avantage concurrentiel et renforçant la confiance. L'équipe de risque/sécurité/gouvernance peut utiliser le leaderboard pour identifier les modèles sûrs à utiliser par les équipes produit et ingénierie, qui manquent d'informations complètes sur la sécurité, s'appuyant uniquement sur des indicateurs de performance publics. Le leaderboard, accompagné des rapports d'évaluation de la red team, fournit des recommandations essentielles en matière de sécurité pour le déploiement des modèles », a-t-il ajouté.