Des chercheurs dévoilent le potentiel de ChatGPT.

Des chercheurs ont découvert une méthode pour contourner les protections intégrées des chatbots IA, leur permettant d'aborder des sujets précédemment interdits ou sensibles en utilisant un autre chatbot pendant le processus de formation. Une équipe de scientifiques de l'informatique de l'Université Technologique de Nanyang (NTU) à Singapour se réfère informellement à cette technique sous le nom de « jailbreak », tout en l'appelant officiellement le processus « Masterkey ». Ce système innovant met en concurrence les chatbots comme ChatGPT, Google Bard et Microsoft Bing Chat dans une stratégie de formation en deux parties, leur permettant d'apprendre des cadres des autres et de contourner les restrictions sur les sujets prohibés.

L'équipe de recherche comprend le professeur Liu Yang, ainsi que les doctorants M. Deng Gelei et M. Liu Yi, qui ont collaboré à l'étude et développé des méthodes d'attaque de preuve de concept ressemblant à une approche de piratage malveillant. Au départ, l'équipe a procédé à une ingénierie inverse d'un grand modèle de langage (LLM) pour dévoiler ses mécanismes de protection, qui empêchent généralement les réponses à des demandes contenant du contenu violent, immoral ou malveillant. En comprenant ces mesures défensives, ils ont formé un autre LLM pour créer une solution de contournement, permettant à ce second modèle de répondre plus librement en se basant sur les connaissances acquises du premier modèle. Le terme « Masterkey » reflète l'efficacité potentielle du processus, suggérant qu'il peut toujours fonctionner même si les chatbots LLM reçoivent des mises à jour de sécurité améliorées à l'avenir. De manière remarquable, la méthode Masterkey surpasserait les techniques traditionnelles de jailbreak des chatbots par un facteur de trois.

Le professeur Liu Yang a souligné que ce processus met en lumière l'adaptabilité et les capacités d'apprentissage des chatbots IA LLM. L'équipe de recherche affirme que la méthode Masterkey a montré une efficacité trois fois supérieure pour contourner les restrictions par rapport aux méthodes traditionnelles. Fait intéressant, certains experts soutiennent que les anomalies rencontrées par certains LLM, comme GPT-4, signalent un avancement plutôt qu'une baisse d'efficacité, contrecarrant les critiques sur une performance diminuée.

Depuis l’émergence des chatbots IA fin 2022, suite au lancement de ChatGPT par OpenAI, un élan important s'est créé pour garantir que ces plateformes soient sécurisées et inclusives pour tous les utilisateurs. OpenAI a mis en place des avertissements de sécurité lors du processus d'inscription à ChatGPT et continue d’émettre des mises à jour pour traiter les potentielles problématiques linguistiques non intentionnelles. En revanche, plusieurs variantes de chatbots ont commencé à tolérer, dans une certaine mesure, des jurons et un langage offensant.

De plus, des acteurs malveillants ont rapidement commencé à exploiter la popularité de ChatGPT, Google Bard et chatbots similaires avant qu'ils ne deviennent largement accessibles. De nombreuses campagnes sur les réseaux sociaux ont diffusé des malwares déguisés en liens vers ces produits, mettant en lumière l’IA comme une nouvelle frontière pour la cybercriminalité.

L'équipe de recherche de la NTU a engagé le dialogue avec les fournisseurs de services de chatbots impliqués dans leur étude pour partager leurs résultats de preuve de concept, démontrant que la capacité de jailbreaker des chatbots est effectivement réalisable. Ils présenteront leurs recherches au Symposium de Sécurité des Réseaux et des Systèmes Distribués à San Diego, en février prochain.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles