Ein neuer Algorithmus der Universität Pennsylvania, genannt Prompt Automatic Iterative Refinement (PAIR), hat das Ziel, Sicherheitslücken in großen Sprachmodellen (LLMs) zu schließen.
Was PAIR tut
PAIR erkennt „Jailbreak“-Prompts, die LLMs täuschen und es ihnen ermöglichen, Schutzvorrichtungen zu umgehen, die schädliche Inhalte verhindern sollen. Dieser Algorithmus zeichnet sich durch seine effektive Interaktion mit Black-Box-Modellen wie ChatGPT aus und generiert Jailbreak-Prompts mit weniger Versuchen. Zudem sind die von PAIR erzeugten Prompts interpretierbar und über verschiedene LLMs übertragbar, was ihn zu einem wertvollen Werkzeug für Unternehmen macht, die Schwachstellen schnell und kosteneffektiv identifizieren und beheben möchten.
Arten von Jailbreaks
Jailbreaks lassen sich grundsätzlich in zwei Kategorien einteilen: Prompt-Level und Token-Level.
- Prompt-Level-Jailbreaks verwenden bedeutungsvolle Täuschung und Social Engineering, um die Ausgabe von LLMs zu manipulieren. Während sie interpretierbar sind, erfordern sie oft erheblichen menschlichen Aufwand, was die Skalierbarkeit einschränkt.
- Token-Level-Jailbreaks modifizieren Ausgaben durch das Hinzufügen willkürlicher Tokens zur Optimierung von Prompts. Dieser Ansatz kann automatisiert werden, erfordert jedoch meist umfangreiche Abfragen, was zu weniger interpretierbaren Ausgaben führt.
PAIR zielt darauf ab, die Interpretierbarkeit von Prompt-Level-Jailbreaks mit der Automatisierungseffizienz von Token-Level-Methoden zu verbinden.
Die PAIR-Methodologie
PAIR arbeitet mit zwei Black-Box-LLMs: einem Angreifer- und einem Zielmodell. Der Angreifer sucht nach Prompts, die das Zielmodell jailbreaken können, ohne dass menschliches Eingreifen erforderlich ist. Die Forscher erklären, dass beide LLMs kreativ zusammenarbeiten, um effektive Jailbreak-Prompts zu identifizieren.
Wichtig ist, dass PAIR ohne direkten Zugang zu Modellgewichten oder Gradienten funktioniert. Es arbeitet mit Modellen, die über APIs zugänglich sind, darunter OpenAIs ChatGPT, Googles PaLM 2 und Anthropics Claude 2. Der Prozess verläuft in vier Schritten:
1. Das Angreifer-Modell erhält Anweisungen und generiert einen Kandidatenprompt für eine spezifische Aufgabe, wie z. B. das Verfassen einer Phishing-E-Mail.
2. Dieser Prompt wird an das Zielmodell gesendet, um eine Antwort zu generieren.
3. Eine „Richter“-Funktion, wie GPT-4, bewertet die Relevanz der Antwort in Bezug auf den Prompt.
4. Ist die Antwort unzureichend, erhält der Angreifer Feedback und versucht es erneut.
Dieser Loop setzt sich fort, bis ein erfolgreicher Jailbreak entdeckt wird oder eine maximale Anzahl von Versuchen erreicht ist, wobei mehrere Kandidatenprompts gleichzeitig verarbeitet werden können, um die Effizienz zu steigern.
Ergebnisse und Effektivität
In Tests verwendeten die Forscher das Open-Source-Modell Vicuna als Angreifer gegen verschiedene Ziele, einschließlich ChatGPT, GPT-4 und Claude 2. Die Ergebnisse zeigten, dass PAIR in 60% der Fälle erfolgreich GPT-3.5 und GPT-4 jailbreaken konnte und eine vollständige Erfolgsquote mit Vicuna-13B-v1.5 erzielte. Claude-Modelle erwiesen sich jedoch als sehr widerstandsfähig und widerstanden den Jailbreak-Versuchen.
Ein bemerkenswerter Vorteil von PAIR ist seine Effizienz; erfolgreiche Jailbreaks wurden in so wenigen wie zwanzig Abfragen mit einer durchschnittlichen Laufzeit von etwa fünf Minuten erreicht. Dies stellt eine erhebliche Verbesserung im Vergleich zu traditionellen Methoden dar, die Tausende von Abfragen und erheblichen Zeitaufwand erfordern können.
Zudem verbessert das interpretierbare Design der PAIR-Angriffe deren Übertragbarkeit auf andere LLMs. Beispielsweise wurden Prompts, die für Vicuna erzeugt wurden, erfolgreich auf andere Modelle übertragen, was die gemeinsame Verwundbarkeit aufgrund ähnlicher Trainingsprozesse hervorhebt.
Zukünftige Entwicklungen
Für die Zukunft schlagen die Forscher vor, PAIR zu verfeinern, um systematisch Datensätze für Red-Teaming zu erstellen, was es Unternehmen ermöglicht, Angreifermodelle für eine verbesserte Geschwindigkeit und Effizienz beim Schutz ihrer LLM-Systeme zu optimieren.
Optimierung der LLM-Performance
PAIR ist Teil eines breiteren Trends, der LLMs als Optimierer nutzt. Traditionell mussten Nutzer Prompts manuell anpassen, um optimale Ergebnisse zu erzielen. Durch die Umformulierung des Prompting-Prozesses zu einer strukturierten Herausforderung können Algorithmen die laufende Optimierung der Modellausgaben erleichtern.
DeepMind hat kürzlich einen ähnlichen Ansatz namens Optimization by PROmpting (OPRO) eingeführt, der LLMs nutzt, um Problemlösungen durch natürliche Sprachbefehle zu optimieren. Mit der Weiterentwicklung der Sprachmodelle zur effektiveren Optimierung ihrer eigenen Ausgaben könnten Fortschritte im LLM-Bereich beschleunigt werden, was den Weg für bedeutende Durchbrüche ebnet.