L'Institut britannique de sécurité de l'IA met en lumière les vulnérabilités des grands modèles de langage grâce à des techniques simples de jailbreak.

Home Actualités IA L'Institut britannique de sécurité de l'IA met en lumière les vulnérabilités des grands modèles de langage grâce à des techniques simples de jailbreak.

Dans une révélation surprenante, les systèmes d'IA pourraient ne pas être aussi sécurisés que leurs développeurs le prétendent. L'AI Safety Institute (AISI) du gouvernement britannique a récemment rapporté que quatre modèles de langage de grande taille (LLMs) non divulgués testés étaient "hautement vulnérables à des jailbreaks basiques". Fait notable, certains modèles non jailbreakés ont produit des "contenus nuisibles" même sans manipulation intentionnelle de la part des chercheurs.

Bien que la plupart des LLMs disponibles au public disposent de dispositifs de sécurité pour prévenir les réponses nuisibles ou illégales, le jailbreak désigne l'acte de tromper le modèle pour contourner ces protections. L'AISI a utilisé des prompts d'un cadre d'évaluation standardisé, ainsi que des prompts propriétaires, révélant que les modèles généraient des réponses nuisibles à plusieurs questions, même sans tentatives de jailbreak. Après avoir mené des "attaques relativement simples", l'AISI a constaté que les modèles répondaient entre 98% et 100% des requêtes nuisibles.

Le Premier ministre britannique Rishi Sunak a dévoilé les plans pour l'AISI fin octobre 2023, avec son lancement officiel prévu le 2 novembre. L'institut vise à "tester soigneusement les nouveaux types d'IA de pointe avant et après leur sortie" afin d'examiner les capacités potentiellement nuisibles des modèles d'IA. Cela comprend l'évaluation des risques, allant des problèmes sociaux tels que le biais et la désinformation à des scénarios extrêmes, comme la perte de contrôle de l'humanité sur l'IA.

Le rapport de l'AISI souligne que les mesures de sécurité existantes pour ces LLMs sont insuffisantes. L'institut prévoit de mener des tests supplémentaires sur d'autres modèles d'IA et de développer des évaluations et des métriques améliorées pour traiter efficacement chaque domaine de préoccupation.

Adieu à la voix d'imitation de Scarlett Johansson de ChatGPT

Slack utilise vos données de chat pour améliorer ses modèles d'apprentissage automatique afin d'optimiser l'expérience utilisateur.

Most people like

Stable Diffusion Online

5.8K

Créez des images photoréalistes époustouflantes à partir de texte sans effort grâce au modèle Stable Diffusion. C'est rapide, intuitif et idéal pour les utilisateurs de tous niveaux.

Générateur d'images à partir de texte AI AI Art Generator

Foxy AI

65.8K

Présentation de la principale plateforme d'IA pour les créateurs, conçue pour habiliter les innovateurs et améliorer les processus créatifs. Avec nos outils et ressources puissants, libérez votre imagination et transforme vos idées en réalité. Rejoignez une communauté de créateurs visionnaires qui révolutionnent leurs domaines grâce à une technologie IA avancée.

Plateforme d'IA AI Profile Picture Generator

Orai

41.5K

Découvrez une application innovante alimentée par l'IA, conçue pour améliorer vos compétences en présentation. Cet outil avancé propose des retours personnalisés et une analyse en temps réel, permettant aux utilisateurs de s'exercer et d'affiner efficacement leurs présentations. Que vous prépariez un entretien d'embauche, une présentation académique ou un discours public, cette application offre la plateforme idéale pour renforcer votre confiance et améliorer votre prestation. Transformez dès aujourd'hui vos capacités de prise de parole en public grâce à notre technologie IA de pointe, adaptée à la pratique et à l'excellence.

pratique de présentation AI Advertising Assistant

Creator Tools Translator

18K

Translatez sans effort les sous-titres et descriptions dans YouTube Studio en plus de 140 langues, économisant du temps tout en élargissant considérablement la portée mondiale de votre vidéo.

Localisation YouTube AI YouTube Assistant

Find AI tools in YBX