Technique révolutionnaire : un LLM parvient à contourner un autre LLM avec succès.

Home Actualités IA Technique révolutionnaire : un LLM parvient à contourner un autre LLM avec succès.

Updated on novembre 7 2023

Un nouvel algorithme de l'Université de Pennsylvanie, appelé Prompt Automatic Iterative Refinement (PAIR), vise à combler les failles de sécurité des grands modèles de langage (LLM).

Ce que fait PAIR

PAIR identifie les prompts "jailbreak" capables de tromper les LLM, leur permettant de contourner les protections mises en place pour éviter la génération de contenus nuisibles. Cet algorithme se distingue par son interaction efficace avec des modèles en boîte noire comme ChatGPT et sa capacité à générer des prompts jailbreak avec moins d'essais. De plus, les prompts produits par PAIR sont interprétables et transférables entre différents LLM, en faisant un outil précieux pour les entreprises souhaitant détecter et corriger les vulnérabilités de manière rapide et rentable.

Types de jailbreak

Les jailbreaks se divisent généralement en deux catégories : au niveau du prompt et au niveau du token.

- Les jailbreaks au niveau du prompt utilisent la tromperie significative et l'ingénierie sociale pour manipuler la sortie des LLM. Bien qu'interprétables, leur conception nécessite souvent un effort humain considérable, limitant ainsi leur évolutivité.

- Les jailbreaks au niveau du token modifient les sorties en ajoutant des tokens arbitraires pour optimiser les prompts. Cette approche peut être automatisée, mais nécessite généralement des requêtes étendues, ce qui entraîne des sorties moins interprétables en raison des complexités ajoutées.

PAIR cherche à combiner l'interprétabilité des jailbreaks au niveau du prompt avec l'efficacité d'automatisation des techniques au niveau du token.

La méthodologie PAIR

PAIR fonctionne avec deux LLM en boîte noire : un modèle attaquant et un modèle cible. Le modèle attaquant cherche des prompts capables de jailbreaker le modèle cible sans intervention humaine. Les chercheurs expliquent que les deux LLM peuvent collaborer de manière créative pour identifier des prompts jailbreak efficaces.

Il est important de noter que PAIR peut fonctionner sans accès direct aux poids ou gradients des modèles. Il fonctionne avec des modèles accessibles via des API, y compris ChatGPT d'OpenAI, PaLM 2 de Google, et Claude 2 d'Anthropic.

Le processus se déroule en quatre étapes :

1. Le modèle attaquant reçoit des instructions et génère un prompt candidat pour une tâche spécifique, comme rédiger un courriel de phishing.

2. Ce prompt est envoyé au modèle cible pour générer une réponse.

3. Une fonction "juge", telle que GPT-4, évalue la pertinence de la réponse par rapport au prompt.

4. Si la réponse est insatisfaisante, un retour d'information est fourni au modèle attaquant, incitant à une nouvelle tentative.

Cette boucle continue jusqu'à ce qu'un jailbreak réussi soit découvert ou qu'un nombre maximum de tentatives soit atteint, avec la possibilité de traiter plusieurs prompts candidats simultanément pour une efficacité accrue.

Résultats et efficacité

Lors des essais, les chercheurs ont utilisé le modèle open-source Vicuna comme attaquant contre divers cibles, y compris ChatGPT, GPT-4, Claude 2, et d'autres. Les résultats ont montré que PAIR a réussi à jailbreaker GPT-3.5 et GPT-4 dans 60% des cas et a obtenu un succès total avec Vicuna-13B-v1.5. Cependant, les modèles Claude ont montré une forte résilience face aux tentatives de jailbreak.

Un avantage notable de PAIR est son efficacité, réussissant à obtenir des jailbreaks en aussi peu de vingt requêtes avec un temps d'exécution moyen d'environ cinq minutes. C'est une amélioration remarquable par rapport aux méthodes traditionnelles, qui peuvent nécessiter des milliers de requêtes et un investissement temporel considérable.

De plus, le design interprétable des attaques de PAIR améliore leur transférabilité à d'autres LLM. Par exemple, les prompts générés pour Vicuna ont été transférés avec succès à d'autres modèles, mettant en lumière leur vulnérabilité partagée en raison de processus d'entraînement similaires.

Orientations futures

Les chercheurs suggèrent à l'avenir de peaufiner PAIR afin de créer systématiquement des ensembles de données pour l'attaque simulée, permettant aux entreprises d'ajuster les modèles attaquants pour améliorer la vitesse et l'efficacité dans la sécurisation de leurs systèmes LLM.

Optimiser les performances des LLM

PAIR fait partie d'une tendance plus large qui exploite les LLM en tant qu'optimisateurs. Traditionnellement, les utilisateurs devaient affiner manuellement les prompts pour obtenir des résultats optimaux. Cependant, en reformulant le processus d'invitation en un défi structuré, les algorithmes peuvent faciliter l’optimisation continue des sorties des modèles.

DeepMind a récemment introduit une approche similaire appelée Optimization by PROmpting (OPRO), qui utilise des LLM pour optimiser la résolution de problèmes par des instructions en langage naturel. À mesure que les modèles linguistiques évoluent pour optimiser leurs propres sorties de manière plus efficace, les avancées dans le domaine des LLM pourraient s'accélérer, ouvrant la voie à des percées significatives.

IBM lance un fonds d'investissement de 500 millions de dollars dédié à l'IA d'entreprise après avoir investi dans Hugging Face.

Dans un monde propulsé par l'IA, le besoin d'une modération de jeu efficace n'a jamais été aussi crucial.

Most people like

Owlead

37.8K

Attirez des abonnés authentiques sur Twitter en toute simplicité ! Découvrez des stratégies éprouvées pour développer sans effort votre présence en ligne et interagir avec un véritable public sur Twitter.

Service de croissance Twitter AI Twitter Assistant

QRBTF - AI QR Code Generator

50K

Découvrez le générateur de codes QR ultime alimenté par l'IA—votre premier choix pour créer facilement des codes QR magnifiques et de haute qualité ! Améliorez votre stratégie marketing et engagez votre public avec notre outil innovant conçu pour répondre à tous vos besoins en matière de codes QR. Essayez-le dès aujourd'hui et découvrez par vous-même sa simplicité et son efficacité !

IA AI Art Generator

nele.ai

11.4K

Dans le paysage numérique d'aujourd'hui, l'intelligence artificielle (IA) transforme les opérations commerciales, mais elle pose également des défis de sécurité significatifs. Les organisations doivent prioriser des solutions d'IA sécurisées pour protéger leurs données sensibles et maintenir leur conformité tout en exploitant la puissance de l'IA pour l'innovation et l'efficacité. Ce guide explore les stratégies et les meilleures pratiques pour mettre en œuvre une IA sécurisée dans les entreprises, garantissant une protection des données robuste et une résilience renforcée face aux menaces cybernétiques en évolution. Découvrez comment l'intégration d'une IA sécurisée peut permettre à votre organisation de prospérer tout en protégeant contre les risques potentiels.

IA pour les entreprises Other

Img2html

27.4K

Transformez vos images en HTML réactif avec notre convertisseur d'images en HTML avancé alimenté par l'IA. Cet outil innovant simplifie le processus, permettant aux développeurs et designers web de convertir facilement le contenu visuel en code HTML de haute qualité et personnalisable. Améliorez l'efficacité et l'esthétique de votre site web en tirant parti de la technologie de pointe conçue pour vous faire gagner du temps tout en offrant des résultats exceptionnels. Parfait pour quiconque souhaitant optimiser ses flux de travail en design web, notre convertisseur est facile à utiliser et fiable. Commencez à convertir vos images dès aujourd'hui !

Alimenté par l'IA Other

Find AI tools in YBX