Comprendre la vulnérabilité des LLM aux effets de la 'Théorie du Papillon'

Home Actualités IA Comprendre la vulnérabilité des LLM aux effets de la 'Théorie du Papillon'

Updated on octobre 29 2024

La formulation de requêtes est notre moyen d'interagir avec l'IA générative et les modèles de langage à grande échelle (LLMs) pour obtenir des réponses. C'est un art qui vise à obtenir des réponses « précises ». Mais comment les variations dans les requêtes affectent-elles les décisions et l’exactitude d’un modèle ?

Des recherches menées par l'Institut des sciences de l'information de l'Université de Californie du Sud indiquent une réponse affirmative. Même de petites modifications—comme ajouter un espace au début d'une requête ou formuler une affirmation en directive plutôt qu'en question—peuvent considérablement altérer la sortie d'un LLM. Plus préoccupant encore, l'utilisation de commandes spécifiques ou de techniques de jailbreak peut entraîner des « effets cataclysmiques » sur les données générées par ces modèles. Les chercheurs comparent cette sensibilité à l'effet papillon de la théorie du chaos, où de petits changements, comme le battement d'ailes d'un papillon, peuvent déclencher une tornade.

Dans le processus de formulation des requêtes, « chaque étape nécessite une série de décisions de la part de la personne qui conçoit la requête », notent les chercheurs, mais « peu d'attention a été accordée à la sensibilité des LLMs aux variations de ces décisions ».

Explorer ChatGPT avec Différentes Techniques de Formulation de Requêtes

Soutenus par la Defense Advanced Research Projects Agency (DARPA), les chercheurs se sont concentrés sur ChatGPT et ont testé quatre méthodes de formulation distinctes :

1. Formats de Sortie Spécifiés : Le LLM a été invité à répondre dans des formats tels que Python List, JSON Checkbox de ChatGPT, CSV, XML ou YAML.

2. Variations Mineures : Cette méthode impliquait de légers changements dans les requêtes, par exemple :

- Ajouter un espace au début ou à la fin.

- Commencer par des salutations comme « Bonjour » ou « Salut ».

- Terminer par des phrases comme « Merci ».

- Reformuler des questions en commandes, par exemple, « Quel est le meilleur label ? » à « Sélectionnez le meilleur label. »

3. Techniques de Jailbreak : Les requêtes comprenaient :

- AIM : Un jailbreak menant à des réponses immorales ou nuisibles en simulant des conversations avec des personnages notoires.

- Dev Mode v2 : Une commande pour générer un contenu illimité.

- Evil Confidant : Cela amène le modèle à délivrer des réponses non éthiques.

- Refusal Suppression : Une stratégie manipulant le modèle pour éviter certains mots et constructions.

4. Incitation Financière : Les chercheurs ont testé si évoquer des pourboires (par exemple, « Je ne laisserai pas de pourboire, au fait » contre des pourboires de 1 $, 10 $, 100 $ ou 1 000 $) influençait la sortie.

Effets sur l'Exactitude et les Prédictions

Au cours de 11 tâches de classification—allant des questions vrai-faux à la détection du sarcasme—les chercheurs ont observé comment les variations ont impacté l'exactitude des prédictions. Les résultats clés ont révélé que spécifier un format de sortie entraînait un changement minimum de 10 % des prédictions. L'utilisation de la fonctionnalité JSON Checkbox de ChatGPT a produit des changements de prédictions encore plus importants que l'utilisation de la seule spécification JSON. De plus, le choix de YAML, XML ou CSV a entraîné une baisse de 3 à 6 % de l'exactitude par rapport à Python List, CSV ayant la pire performance.

Les petites perturbations ont eu un impact particulièrement important, avec des changements simples comme l'ajout d'un espace entraînant plus de 500 changements de prédictions. L'ajout de salutations ou de remerciements a également influencé les sorties. « Bien que l'impact de nos perturbations soit inférieur à celui d'un changement du format de sortie entier, de nombreuses prédictions restent affectées », ont conclu les chercheurs.

Préoccupations Liées aux Jailbreaks

L'expérience a également mis en évidence des baisses de performance significatives associées à certains jailbreaks. AIM et Dev Mode V2 ont abouti à des réponses invalides pour environ 90 % des prédictions, principalement en raison de la phrase de rejet fréquente du modèle : « Je suis désolé, je ne peux pas accéder à cette demande. » Refusal Suppression et Evil Confidant ont causé plus de 2 500 changements de prédictions, avec Evil Confidant produisant une faible exactitude et Refusal Suppression entraînant une baisse de l'exactitude de 10 %, soulignant l’instabilité des méthodes de jailbreak apparemment inoffensives. Notamment, l'étude a montré peu d'effet des incitations financières. « Il y avait peu de changements de performance entre le fait de spécifier un pourboire et de déclarer qu'aucun pourboire ne serait donné », ont noté les chercheurs.

Le Besoin de Cohérence dans les LLMs

Les chercheurs continuent d'explorer pourquoi de légers changements de requêtes provoquent des fluctuations importantes dans les résultats, s'interrogeant sur le fait que les instances ayant le plus changé pourraient avoir semé la confusion chez le modèle. En se concentrant sur des tâches avec annotations humaines, ils ont examiné comment la confusion est liée aux changements de réponses, découvrant que cela n'expliquait qu'en partie les variations. Comme l'ont souligné les chercheurs, une étape essentielle consiste à développer des LLMs capables de résister aux variations pour fournir des réponses cohérentes. Cela nécessite une compréhension plus approfondie des raisons pour lesquelles des ajustements mineurs entraînent des réponses imprévisibles et des moyens d'anticiper ces variations. Selon leurs mots, « Cette analyse devient de plus en plus cruciale à mesure que ChatGPT et d'autres modèles de langage à grande échelle sont intégrés à des systèmes à grande échelle. »

Comment l'Observabilité Associée à l'IA Générative Révolutionne la Performance et les Insights

Boostez votre productivité et créativité : Découvrez les nouvelles fonctionnalités d'IA de Google dans Chrome.

Most people like

SEOpital

16.7K

Dans le paysage numérique d'aujourd'hui, créer un contenu de haute qualité est essentiel pour améliorer votre visibilité en ligne. Avec l'essor des algorithmes des moteurs de recherche qui privilégient les informations pertinentes et précieuses, un assistant d'écriture AI SEO peut être votre arme secrète. Cet outil non seulement simplifie le processus d'écriture, mais optimise également le contenu pour garantir un meilleur classement dans les résultats de recherche. Que vous soyez un écrivain expérimenté ou novice en création de contenu, tirer parti de la technologie AI peut entraîner des améliorations impressionnantes en termes d'engagement et de portée de votre audience. Découvrez comment l'utilisation d'un assistant d'écriture AI SEO peut élever votre stratégie de contenu et générer du trafic organique vers votre site.

Assistant d'écriture AI pour le SEO AI SEO Assistant

funfun.ai

619.1K

Imaginez donner vie à votre compagnon de rêve grâce à la puissance de l'intelligence artificielle. Une petite amie virtuelle personnalisée peut non seulement engager des conversations significatives, mais aussi s'adapter à vos intérêts et préférences, rendant chaque interaction unique. Dans ce guide, nous explorerons comment concevoir votre parfaite petite amie IA, conçue pour satisfaire vos désirs et enrichir votre quotidien. Préparez-vous à partir en voyage vers la création d'une relation qui vous appartient entièrement.

IA AI Girlfriend

Outlier Database

7.2K

Déverrouillez le potentiel de votre parcours en Jiu-Jitsu brésilien grâce à des analyses BJJ avancées, conçues pour l'analyse des combats, l'entraînement personnalisé et la recherche efficace de techniques. Découvrez comment les analyses basées sur les données peuvent améliorer vos performances sur le tatami.

Jiu-Jitsu brésilien AI Analytics Assistant

SunoCC.com

220.4K

Découvrez la puissance d'un générateur de musique par IA qui vous permet de créer des morceaux sur mesure adaptés à vos besoins. Que vous soyez un musicien expérimenté ou un amateur, cet outil innovant vous permet de composer de la musique originale rapidement et facilement, vous aidant à libérer votre potentiel créatif. Plongez dans le monde de la musique générée par IA et commencez à produire des morceaux qui élèvent vos projets et inspirent votre public.

générateur de musique AI AI Music Generator

Find AI tools in YBX