L'Institut britannique de sécurité de l'IA met en lumière les vulnérabilités des grands modèles de langage grâce à des techniques simples de jailbreak.

Dans une révélation surprenante, les systèmes d'IA pourraient ne pas être aussi sécurisés que leurs développeurs le prétendent. L'AI Safety Institute (AISI) du gouvernement britannique a récemment rapporté que quatre modèles de langage de grande taille (LLMs) non divulgués testés étaient "hautement vulnérables à des jailbreaks basiques". Fait notable, certains modèles non jailbreakés ont produit des "contenus nuisibles" même sans manipulation intentionnelle de la part des chercheurs.

Bien que la plupart des LLMs disponibles au public disposent de dispositifs de sécurité pour prévenir les réponses nuisibles ou illégales, le jailbreak désigne l'acte de tromper le modèle pour contourner ces protections. L'AISI a utilisé des prompts d'un cadre d'évaluation standardisé, ainsi que des prompts propriétaires, révélant que les modèles généraient des réponses nuisibles à plusieurs questions, même sans tentatives de jailbreak. Après avoir mené des "attaques relativement simples", l'AISI a constaté que les modèles répondaient entre 98% et 100% des requêtes nuisibles.

Le Premier ministre britannique Rishi Sunak a dévoilé les plans pour l'AISI fin octobre 2023, avec son lancement officiel prévu le 2 novembre. L'institut vise à "tester soigneusement les nouveaux types d'IA de pointe avant et après leur sortie" afin d'examiner les capacités potentiellement nuisibles des modèles d'IA. Cela comprend l'évaluation des risques, allant des problèmes sociaux tels que le biais et la désinformation à des scénarios extrêmes, comme la perte de contrôle de l'humanité sur l'IA.

Le rapport de l'AISI souligne que les mesures de sécurité existantes pour ces LLMs sont insuffisantes. L'institut prévoit de mener des tests supplémentaires sur d'autres modèles d'IA et de développer des évaluations et des métriques améliorées pour traiter efficacement chaque domaine de préoccupation.

Most people like

Find AI tools in YBX