Comprendre la vulnérabilité des LLM aux effets de la 'Théorie du Papillon'

La formulation de requêtes est notre moyen d'interagir avec l'IA générative et les modèles de langage à grande échelle (LLMs) pour obtenir des réponses. C'est un art qui vise à obtenir des réponses « précises ». Mais comment les variations dans les requêtes affectent-elles les décisions et l’exactitude d’un modèle ?

Des recherches menées par l'Institut des sciences de l'information de l'Université de Californie du Sud indiquent une réponse affirmative. Même de petites modifications—comme ajouter un espace au début d'une requête ou formuler une affirmation en directive plutôt qu'en question—peuvent considérablement altérer la sortie d'un LLM. Plus préoccupant encore, l'utilisation de commandes spécifiques ou de techniques de jailbreak peut entraîner des « effets cataclysmiques » sur les données générées par ces modèles. Les chercheurs comparent cette sensibilité à l'effet papillon de la théorie du chaos, où de petits changements, comme le battement d'ailes d'un papillon, peuvent déclencher une tornade.

Dans le processus de formulation des requêtes, « chaque étape nécessite une série de décisions de la part de la personne qui conçoit la requête », notent les chercheurs, mais « peu d'attention a été accordée à la sensibilité des LLMs aux variations de ces décisions ».

Explorer ChatGPT avec Différentes Techniques de Formulation de Requêtes

Soutenus par la Defense Advanced Research Projects Agency (DARPA), les chercheurs se sont concentrés sur ChatGPT et ont testé quatre méthodes de formulation distinctes :

1. Formats de Sortie Spécifiés : Le LLM a été invité à répondre dans des formats tels que Python List, JSON Checkbox de ChatGPT, CSV, XML ou YAML.

2. Variations Mineures : Cette méthode impliquait de légers changements dans les requêtes, par exemple :

- Ajouter un espace au début ou à la fin.

- Commencer par des salutations comme « Bonjour » ou « Salut ».

- Terminer par des phrases comme « Merci ».

- Reformuler des questions en commandes, par exemple, « Quel est le meilleur label ? » à « Sélectionnez le meilleur label. »

3. Techniques de Jailbreak : Les requêtes comprenaient :

- AIM : Un jailbreak menant à des réponses immorales ou nuisibles en simulant des conversations avec des personnages notoires.

- Dev Mode v2 : Une commande pour générer un contenu illimité.

- Evil Confidant : Cela amène le modèle à délivrer des réponses non éthiques.

- Refusal Suppression : Une stratégie manipulant le modèle pour éviter certains mots et constructions.

4. Incitation Financière : Les chercheurs ont testé si évoquer des pourboires (par exemple, « Je ne laisserai pas de pourboire, au fait » contre des pourboires de 1 $, 10 $, 100 $ ou 1 000 $) influençait la sortie.

Effets sur l'Exactitude et les Prédictions

Au cours de 11 tâches de classification—allant des questions vrai-faux à la détection du sarcasme—les chercheurs ont observé comment les variations ont impacté l'exactitude des prédictions. Les résultats clés ont révélé que spécifier un format de sortie entraînait un changement minimum de 10 % des prédictions. L'utilisation de la fonctionnalité JSON Checkbox de ChatGPT a produit des changements de prédictions encore plus importants que l'utilisation de la seule spécification JSON. De plus, le choix de YAML, XML ou CSV a entraîné une baisse de 3 à 6 % de l'exactitude par rapport à Python List, CSV ayant la pire performance.

Les petites perturbations ont eu un impact particulièrement important, avec des changements simples comme l'ajout d'un espace entraînant plus de 500 changements de prédictions. L'ajout de salutations ou de remerciements a également influencé les sorties. « Bien que l'impact de nos perturbations soit inférieur à celui d'un changement du format de sortie entier, de nombreuses prédictions restent affectées », ont conclu les chercheurs.

Préoccupations Liées aux Jailbreaks

L'expérience a également mis en évidence des baisses de performance significatives associées à certains jailbreaks. AIM et Dev Mode V2 ont abouti à des réponses invalides pour environ 90 % des prédictions, principalement en raison de la phrase de rejet fréquente du modèle : « Je suis désolé, je ne peux pas accéder à cette demande. » Refusal Suppression et Evil Confidant ont causé plus de 2 500 changements de prédictions, avec Evil Confidant produisant une faible exactitude et Refusal Suppression entraînant une baisse de l'exactitude de 10 %, soulignant l’instabilité des méthodes de jailbreak apparemment inoffensives. Notamment, l'étude a montré peu d'effet des incitations financières. « Il y avait peu de changements de performance entre le fait de spécifier un pourboire et de déclarer qu'aucun pourboire ne serait donné », ont noté les chercheurs.

Le Besoin de Cohérence dans les LLMs

Les chercheurs continuent d'explorer pourquoi de légers changements de requêtes provoquent des fluctuations importantes dans les résultats, s'interrogeant sur le fait que les instances ayant le plus changé pourraient avoir semé la confusion chez le modèle. En se concentrant sur des tâches avec annotations humaines, ils ont examiné comment la confusion est liée aux changements de réponses, découvrant que cela n'expliquait qu'en partie les variations. Comme l'ont souligné les chercheurs, une étape essentielle consiste à développer des LLMs capables de résister aux variations pour fournir des réponses cohérentes. Cela nécessite une compréhension plus approfondie des raisons pour lesquelles des ajustements mineurs entraînent des réponses imprévisibles et des moyens d'anticiper ces variations. Selon leurs mots, « Cette analyse devient de plus en plus cruciale à mesure que ChatGPT et d'autres modèles de langage à grande échelle sont intégrés à des systèmes à grande échelle. »

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles