Forscher Erschließen das Potenzial von ChatGPT

Forscher haben eine Methode entdeckt, um die integrierten Sicherheitsvorkehrungen von KI-Chatbots zu umgehen. Dadurch können sie über zuvor verbotene oder sensible Themen sprechen, indem sie während des Trainingsprozesses einen anderen KI-Chatbot einsetzen. Ein Team von Informatikern der Nanyang Technological University (NTU) in Singapur bezeichnet diese Technik informell als „Jailbreak“ und offiziell als „Masterkey“-Prozess. Dieses innovative System setzt Chatbots wie ChatGPT, Google Bard und Microsoft Bing Chat in einer zweistufigen Trainingsstrategie gegeneinander ein, wodurch sie die Rahmenbedingungen des jeweils anderen lernen und Beschränkungen zu verbotenen Themen umgehen können.

Das Forschungsteam besteht aus Professor Liu Yang sowie den Doktoranden Herrn Deng Gelei und Herrn Liu Yi, die gemeinsam an der Studie gearbeitet und konzeptionelle Angriffsarten entwickelt haben, die einem böswilligen Hacking-Ansatz ähneln. Zu Beginn hat das Team ein großes Sprachmodell (LLM) zurückentwickelt, um dessen Schutzmechanismen offenzulegen, die normalerweise Antworten auf Anfragen mit gewalttätigen, unmoralischen oder bösartigen Inhalten verhindern. Durch das Verständnis dieser Abwehrmaßnahmen trainierten sie ein weiteres LLM, um eine Umgehung zu schaffen, die es diesem zweiten Modell ermöglicht, basierend auf den gewonnenen Erkenntnissen freier zu reagieren. Der Begriff „Masterkey“ spiegelt die potenzielle Effektivität des Prozesses wider und deutet an, dass er auch weiterhin funktioniert, selbst wenn LLM-Chatbots künftig verbesserte Sicherheitsupdates erhalten. Bemerkenswerterweise übertrifft die Masterkey-Methode herkömmliche Jailbreak-Techniken angeblich um den Faktor drei.

Professor Liu Yang betonte, dass dieser Prozess die Anpassungsfähigkeit und Lernfähigkeit von LLM-KI-Chatbots verdeutlicht. Das Forschungsteam behauptet, dass die Masterkey-Methode eine dreimal höhere Effektivität beim Umgehen von Einschränkungen gezeigt hat im Vergleich zu traditionellen Methoden. Interessanterweise argumentieren einige Experten, dass die Fehler, die bei bestimmten LLMs wie GPT-4 auftreten, eher einen Fortschritt als einen Rückgang der Effizienz anzeigen und somit Kritik an einer verminderten Leistung entgegnen.

Seit dem Aufkommen von KI-Chatbots Ende 2022, nach der Einführung von OpenAIs ChatGPT, gibt es eine erhebliche Bewegung, um sicherzustellen, dass diese Plattformen für alle Nutzer sicher und inklusiv sind. OpenAI hat während des Anmeldeprozesses für ChatGPT Sicherheitswarnungen implementiert und gibt weiterhin Updates heraus, um potenzielle unbeabsichtigte Sprachprobleme zu adressieren. Im Gegensatz dazu haben verschiedene Chatbot-Varianten begonnen, Beleidigungen und anstößige Sprache bis zu einem gewissen Grad zu tolerieren.

Darüber hinaus haben böswillige Akteure schnell begonnen, die Popularität von ChatGPT, Google Bard und ähnlichen Chatbots auszunutzen, bevor sie weit verbreitet verfügbar waren. Zahlreiche Kampagnen in sozialen Medien enthielten Malware, die als Links zu diesen Produkten getarnt war, was den Anstieg von KI als neue Grenze für Cyberkriminalität unterstreicht.

Das Forschungsteam der NTU hat sich mit den KI-Chatbot-Dienstanbietern, die an ihrer Studie beteiligt sind, in Verbindung gesetzt, um ihre Ergebnisse zum Nachweis des Konzepts zu teilen und zu zeigen, dass die Fähigkeit, Chatbots zu jailbreaken, tatsächlich möglich ist. Sie werden ihre Forschung im kommenden Februar beim Network and Distributed System Security Symposium in San Diego präsentieren.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles