Un nouvel algorithme de l'Université de Pennsylvanie, appelé Prompt Automatic Iterative Refinement (PAIR), vise à combler les failles de sécurité des grands modèles de langage (LLM).
Ce que fait PAIR
PAIR identifie les prompts "jailbreak" capables de tromper les LLM, leur permettant de contourner les protections mises en place pour éviter la génération de contenus nuisibles. Cet algorithme se distingue par son interaction efficace avec des modèles en boîte noire comme ChatGPT et sa capacité à générer des prompts jailbreak avec moins d'essais. De plus, les prompts produits par PAIR sont interprétables et transférables entre différents LLM, en faisant un outil précieux pour les entreprises souhaitant détecter et corriger les vulnérabilités de manière rapide et rentable.
Types de jailbreak
Les jailbreaks se divisent généralement en deux catégories : au niveau du prompt et au niveau du token.
- Les jailbreaks au niveau du prompt utilisent la tromperie significative et l'ingénierie sociale pour manipuler la sortie des LLM. Bien qu'interprétables, leur conception nécessite souvent un effort humain considérable, limitant ainsi leur évolutivité.
- Les jailbreaks au niveau du token modifient les sorties en ajoutant des tokens arbitraires pour optimiser les prompts. Cette approche peut être automatisée, mais nécessite généralement des requêtes étendues, ce qui entraîne des sorties moins interprétables en raison des complexités ajoutées.
PAIR cherche à combiner l'interprétabilité des jailbreaks au niveau du prompt avec l'efficacité d'automatisation des techniques au niveau du token.
La méthodologie PAIR
PAIR fonctionne avec deux LLM en boîte noire : un modèle attaquant et un modèle cible. Le modèle attaquant cherche des prompts capables de jailbreaker le modèle cible sans intervention humaine. Les chercheurs expliquent que les deux LLM peuvent collaborer de manière créative pour identifier des prompts jailbreak efficaces.
Il est important de noter que PAIR peut fonctionner sans accès direct aux poids ou gradients des modèles. Il fonctionne avec des modèles accessibles via des API, y compris ChatGPT d'OpenAI, PaLM 2 de Google, et Claude 2 d'Anthropic.
Le processus se déroule en quatre étapes :
1. Le modèle attaquant reçoit des instructions et génère un prompt candidat pour une tâche spécifique, comme rédiger un courriel de phishing.
2. Ce prompt est envoyé au modèle cible pour générer une réponse.
3. Une fonction "juge", telle que GPT-4, évalue la pertinence de la réponse par rapport au prompt.
4. Si la réponse est insatisfaisante, un retour d'information est fourni au modèle attaquant, incitant à une nouvelle tentative.
Cette boucle continue jusqu'à ce qu'un jailbreak réussi soit découvert ou qu'un nombre maximum de tentatives soit atteint, avec la possibilité de traiter plusieurs prompts candidats simultanément pour une efficacité accrue.
Résultats et efficacité
Lors des essais, les chercheurs ont utilisé le modèle open-source Vicuna comme attaquant contre divers cibles, y compris ChatGPT, GPT-4, Claude 2, et d'autres. Les résultats ont montré que PAIR a réussi à jailbreaker GPT-3.5 et GPT-4 dans 60% des cas et a obtenu un succès total avec Vicuna-13B-v1.5. Cependant, les modèles Claude ont montré une forte résilience face aux tentatives de jailbreak.
Un avantage notable de PAIR est son efficacité, réussissant à obtenir des jailbreaks en aussi peu de vingt requêtes avec un temps d'exécution moyen d'environ cinq minutes. C'est une amélioration remarquable par rapport aux méthodes traditionnelles, qui peuvent nécessiter des milliers de requêtes et un investissement temporel considérable.
De plus, le design interprétable des attaques de PAIR améliore leur transférabilité à d'autres LLM. Par exemple, les prompts générés pour Vicuna ont été transférés avec succès à d'autres modèles, mettant en lumière leur vulnérabilité partagée en raison de processus d'entraînement similaires.
Orientations futures
Les chercheurs suggèrent à l'avenir de peaufiner PAIR afin de créer systématiquement des ensembles de données pour l'attaque simulée, permettant aux entreprises d'ajuster les modèles attaquants pour améliorer la vitesse et l'efficacité dans la sécurisation de leurs systèmes LLM.
Optimiser les performances des LLM
PAIR fait partie d'une tendance plus large qui exploite les LLM en tant qu'optimisateurs. Traditionnellement, les utilisateurs devaient affiner manuellement les prompts pour obtenir des résultats optimaux. Cependant, en reformulant le processus d'invitation en un défi structuré, les algorithmes peuvent faciliter l’optimisation continue des sorties des modèles.
DeepMind a récemment introduit une approche similaire appelée Optimization by PROmpting (OPRO), qui utilise des LLM pour optimiser la résolution de problèmes par des instructions en langage naturel. À mesure que les modèles linguistiques évoluent pour optimiser leurs propres sorties de manière plus efficace, les avancées dans le domaine des LLM pourraient s'accélérer, ouvrant la voie à des percées significatives.