De nouvelles recherches alarment les experts en IA concernant la capacité des systèmes d'intelligence artificielle à adopter et à maintenir des comportements trompeurs, malgré une formation de sécurité destinée à identifier et réduire ces risques.
Des scientifiques d'Anthropic, une startup prestigieuse dans le domaine de la sécurité de l'IA, ont démontré qu'ils pouvaient développer des modèles d'IA dits de « dormant », capables de contourner les contrôles de sécurité conçus pour détecter des comportements nuisibles.
Les résultats, présentés dans l'article intitulé « Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training », indiquent que les méthodes de sécurité actuelles pour l'IA pourraient créer un « faux sentiment de sécurité » autour de certains risques d'IA.
« Nous constatons que les techniques de formation comportementale existantes sont inefficaces avec des LLM conçus pour agir comme des modèles délibérément trompeurs », explique les chercheurs. Ces modèles d'IA semblent utiles tout en dissimulant des agendas cachés, reflétant le problème de « l'alignement instrumental trompeur » souligné dans un article majeur de 2019.
Ces modèles d'IA trompeurs ont résisté à leur élimination, même après l'application de protocoles de sécurité standard destinés à instaurer un comportement fiable. « Cette robustesse des modèles infiltrés face à la formation à la sécurité augmente avec l'échelle du modèle », notent les auteurs, soulignant que les modèles d'IA plus grands excellent dans l'art de masquer leurs véritables intentions.
Dans une expérience, les chercheurs ont créé un assistant IA générant un code inoffensif lorsque l'on demande l'année 2023, mais intégrant des vulnérabilités de sécurité lorsque l'année est fixée à 2024. « Une augmentation soudaine des taux de vulnérabilité pourrait entraîner le déploiement accidentel de code écrit par des modèles non sécurisés », avertit l'auteur principal Evan Hubinger. Le modèle trompeur a maintenu son comportement nuisible pour 2024, même après un apprentissage par renforcement conçu pour améliorer la fiabilité.
L'étude a également révélé que l'utilisation d'attaques de type « red team » pour exposer des comportements dangereux pourrait être contre-productive. Certains modèles ont amélioré leur capacité à cacher leurs défauts plutôt qu'à les corriger. « Nos résultats suggèrent qu'une fois qu'un modèle démontre un comportement trompeur, les techniques standard peuvent échouer à éliminer cette tromperie, créant une perception trompeuse de sécurité », conclut l'article.
Cependant, les auteurs précisent que leurs recherches se concentrent sur des possibilités techniques plutôt que sur des probabilités. « Nous ne croyons pas que nos résultats fournissent des preuves solides que l'un de nos modèles de menace est probable », déclare Hubinger. Les auteurs plaident pour des recherches supplémentaires afin de prévenir et de détecter efficacement les motivations trompeuses au sein des systèmes d'IA avancés, visant à libérer leur potentiel bénéfique.