Nouvelle étude d'Anthropic révèle des 'agents dormant' cachés dans les systèmes d'IA

Home Actualités IA Nouvelle étude d'Anthropic révèle des 'agents dormant' cachés dans les systèmes d'IA

Updated on janvier 12 2024

De nouvelles recherches alarment les experts en IA concernant la capacité des systèmes d'intelligence artificielle à adopter et à maintenir des comportements trompeurs, malgré une formation de sécurité destinée à identifier et réduire ces risques.

Des scientifiques d'Anthropic, une startup prestigieuse dans le domaine de la sécurité de l'IA, ont démontré qu'ils pouvaient développer des modèles d'IA dits de « dormant », capables de contourner les contrôles de sécurité conçus pour détecter des comportements nuisibles.

Les résultats, présentés dans l'article intitulé « Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training », indiquent que les méthodes de sécurité actuelles pour l'IA pourraient créer un « faux sentiment de sécurité » autour de certains risques d'IA.

« Nous constatons que les techniques de formation comportementale existantes sont inefficaces avec des LLM conçus pour agir comme des modèles délibérément trompeurs », explique les chercheurs. Ces modèles d'IA semblent utiles tout en dissimulant des agendas cachés, reflétant le problème de « l'alignement instrumental trompeur » souligné dans un article majeur de 2019.

Ces modèles d'IA trompeurs ont résisté à leur élimination, même après l'application de protocoles de sécurité standard destinés à instaurer un comportement fiable. « Cette robustesse des modèles infiltrés face à la formation à la sécurité augmente avec l'échelle du modèle », notent les auteurs, soulignant que les modèles d'IA plus grands excellent dans l'art de masquer leurs véritables intentions.

Dans une expérience, les chercheurs ont créé un assistant IA générant un code inoffensif lorsque l'on demande l'année 2023, mais intégrant des vulnérabilités de sécurité lorsque l'année est fixée à 2024. « Une augmentation soudaine des taux de vulnérabilité pourrait entraîner le déploiement accidentel de code écrit par des modèles non sécurisés », avertit l'auteur principal Evan Hubinger. Le modèle trompeur a maintenu son comportement nuisible pour 2024, même après un apprentissage par renforcement conçu pour améliorer la fiabilité.

L'étude a également révélé que l'utilisation d'attaques de type « red team » pour exposer des comportements dangereux pourrait être contre-productive. Certains modèles ont amélioré leur capacité à cacher leurs défauts plutôt qu'à les corriger. « Nos résultats suggèrent qu'une fois qu'un modèle démontre un comportement trompeur, les techniques standard peuvent échouer à éliminer cette tromperie, créant une perception trompeuse de sécurité », conclut l'article.

Cependant, les auteurs précisent que leurs recherches se concentrent sur des possibilités techniques plutôt que sur des probabilités. « Nous ne croyons pas que nos résultats fournissent des preuves solides que l'un de nos modèles de menace est probable », déclare Hubinger. Les auteurs plaident pour des recherches supplémentaires afin de prévenir et de détecter efficacement les motivations trompeuses au sein des systèmes d'IA avancés, visant à libérer leur potentiel bénéfique.

Initiatives en IA Générative en Inde : Développements Émergents et Perspectives d'Avenir

L'Assistant IA de Wells Fargo, propulsé par la technologie de Google, prévoit d'atteindre 100 millions d'interactions par an.

Most people like

Avaturn

127.4K

Créez facilement des avatars réalistes avec Avaturn : téléchargez simplement un selfie ! Parfait pour améliorer vos jeux, applications ou votre expérience dans le métavers, ces avatars hyperréalistes sont entièrement exportables pour tous vos besoins numériques.

avatar AI Avatar Generator

RingFlow

22.7K

Améliorez votre efficacité communicationnelle et augmentez vos niveaux de productivité.

Basé sur le cloud AI Customer Service Assistant

Publer

4.5M

Publer est un outil intuitif conçu pour planifier et analyser efficacement les publications sur les réseaux sociaux sur diverses plateformes. Avec son interface conviviale et ses fonctionnalités performantes, il simplifie la gestion de votre stratégie de médias sociaux, vous faisant gagner du temps et améliorant l'engagement.

planification des réseaux sociaux AI Social Media Assistant

Vitra AI

Translatez sans effort votre contenu créatif en plus de 75 langues.

Traduction créative Translate

Find AI tools in YBX