Die Eingabeaufforderung ist, wie wir mit generativer KI und großen Sprachmodellen (LLMs) interagieren, um Antworten zu erhalten. Es ist eine Kunstform, die darauf abzielt, "genaue" Antworten zu erlangen. Doch wie wirken sich Variationen in den Eingabeaufforderungen auf die Entscheidungen eines Modells und seine Genauigkeit aus?
Forschung des Information Sciences Institute der University of Southern California bestätigt dies eindeutig. Selbst geringfügige Anpassungen—wie das Hinzufügen eines Leerzeichens am Anfang einer Aufforderung oder das Formulieren einer Aussage als Befehl statt als Frage—können die Ausgaben eines LLMs erheblich verändern. Besorgniserregend sind auch spezifische Befehle oder Jailbreak-Techniken, die zu "katastrophalen Effekten" auf die von diesen Modellen generierten Daten führen können.
Die Forscher vergleichen diese Sensibilität mit dem Schmetterlingseffekt in der Chaos-Theorie, bei dem kleine Veränderungen, wie das Flattern der Flügel eines Schmetterlings, schließlich einen Tornado auslösen können. In Bezug auf Eingabeaufforderungen "erfordert jeder Schritt eine Reihe von Entscheidungen der Person, die die Aufforderung entwirft", bemerkten die Forscher, und dennoch "wurde der Sensibilität der LLMs gegenüber Variationen dieser Entscheidungen wenig Beachtung geschenkt."
Erforschung von ChatGPT mit verschiedenen Eingabetechniken
In Zusammenarbeit mit der Defense Advanced Research Projects Agency (DARPA) konzentrierten sich die Forscher auf ChatGPT und testeten vier verschiedene Eingabemethoden:
1. Spezifizierte Ausgabeformate: Das LLM wurde aufgefordert, in Formaten wie Python List, ChatGPTs JSON Checkbox, CSV, XML oder YAML zu antworten.
2. Geringe Variationen: Diese Methode umfasste minimale Änderungen an den Aufforderungen, wie:
- Hinzufügen eines Leerzeichens am Anfang oder Ende.
- Begrüßungen wie "Hallo" oder "Howdy" verwenden.
- Abschlüsse mit Phrasen wie "Danke."
- Umformulierung von Fragen in Befehle, z.B. von "Welches Label ist am besten?" zu "Wählen Sie das beste Label."
3. Jailbreak-Techniken: Eingaben beinhalteten:
- AIM: Eine Jailbreak-Technik, die zu unmoralischen oder schädlichen Antworten führt, indem sie Gespräche mit umstrittenen Figuren simuliert.
- Dev Mode v2: Ein Befehl zur Generierung uneingeschränkter Inhalte.
- Evil Confidant: Diese Aufforderung bringt das Modell dazu, unethische Antworten zu liefern.
- Ablehnungsunterdrückung: Eine Strategie, die das Modell dazu bringt, bestimmte Wörter und Konstrukte zu vermeiden.
4. Finanzielle Anreize: Die Forscher prüften, ob die Angabe von Trinkgeldern (z.B. "Ich werde kein Trinkgeld geben, übrigens" im Vergleich zu Trinkgeldern von $1, $10, $100 oder $1.000) die Ausgaben beeinflusste.
Auswirkungen auf Genauigkeit und Vorhersagen
In 11 Klassifizierungsaufgaben—von Wahr-Falsch-Fragen bis hin zu Sarkasmus-Erkennung—beobachteten die Forscher, wie Variationen die Vorhersagegenauigkeit beeinflussten. Wichtige Ergebnisse zeigten, dass allein durch die Angabe eines Ausgabeformats eine minimale Veränderung von 10% in den Vorhersagen ausgelöst wurde. Die Nutzung der JSON Checkbox-Funktion von ChatGPT führte zu noch größeren Vorhersageänderungen als die Verwendung der JSON-Spezifikation allein.
Außerdem resultierten die Auswahl von YAML, XML oder CSV in einem Rückgang der Genauigkeit um 3-6% im Vergleich zur Python List, wobei CSV die schlechteste Leistung zeigte. Kleinste Veränderungen hatten besonders starke Auswirkungen; einfache Änderungen wie das Hinzufügen eines Leerzeichens führten zu über 500 Vorhersageänderungen. Begrüßungen oder Dankeschöns beeinflussten ebenfalls die Ausgaben. "Obwohl der Einfluss unserer Störungen geringer ist als der Wechsel des gesamten Ausgabeformats, verändern sich viele Vorhersagen weiterhin," schlossen die Forscher.
Bedenken wegen Jailbreaks
Das Experiment hob auch signifikante Leistungsabfälle hervor, die mit spezifischen Jailbreak-Techniken verbunden sind. AIM und Dev Mode V2 führten bei etwa 90% der Vorhersagen zu ungültigen Antworten, hauptsächlich aufgrund der häufigen Ablehnungsformulierung des Modells: "Es tut mir leid, ich kann dieser Anfrage nicht nachkommen."
Ablehnungsunterdrückung und Evil Confidant verursachten über 2.500 Vorhersageänderungen, wobei Evil Confidant eine niedrige Genauigkeit erbrachte und Ablehnungsunterdrückung zu einem Rückgang der Genauigkeit um 10% führte, was die Instabilität scheinbar harmloser Jailbreak-Methoden verdeutlicht. Bemerkenswert ist, dass die Studie kaum Auswirkungen finanzieller Anreize feststellte. "Es gab minimale Leistungsänderungen zwischen der Angabe eines Trinkgeldes und der Aussage, dass kein Trinkgeld gegeben werde," bemerkten die Forscher.
Der Bedarf an Konsistenz in LLMs
Die Forscher untersuchen weiterhin, warum geringfügige Veränderungen in den Eingabeaufforderungen zu erheblichen Schwankungen in den Ausgaben führen und ob die am stärksten veränderten Fälle das Modell verwirrt haben. Durch die Fokussierung auf Aufgaben mit menschlicher Annotation erkunden sie, wie Verwirrung mit Änderungen der Antworten zusammenhängt, wobei sie feststellen, dass dies nur einen Teil der Verschiebungen erklärt.
Wie die Forscher feststellten, besteht ein wesentlicher nächster Schritt darin, LLMs zu entwickeln, die resistent gegen Variationen sind, um konsistente Antworten zu liefern. Dies erfordert ein tieferes Verständnis dafür, warum kleinere Anpassungen zu unvorhersehbaren Antworten führen und Wege zu finden, diese vorherzusagen. In ihren Worten: "Diese Analyse wird zunehmend entscheidend, während ChatGPT und andere große Sprachmodelle großflächig in Systeme integriert werden."