Die Anfälligkeit von LLMs für den 'Schmetterlingseffekt' verstehen

Home KI-Nachrichten Die Anfälligkeit von LLMs für den 'Schmetterlingseffekt' verstehen

Updated on Oktober 29 2024

Die Eingabeaufforderung ist, wie wir mit generativer KI und großen Sprachmodellen (LLMs) interagieren, um Antworten zu erhalten. Es ist eine Kunstform, die darauf abzielt, "genaue" Antworten zu erlangen. Doch wie wirken sich Variationen in den Eingabeaufforderungen auf die Entscheidungen eines Modells und seine Genauigkeit aus?

Forschung des Information Sciences Institute der University of Southern California bestätigt dies eindeutig. Selbst geringfügige Anpassungen—wie das Hinzufügen eines Leerzeichens am Anfang einer Aufforderung oder das Formulieren einer Aussage als Befehl statt als Frage—können die Ausgaben eines LLMs erheblich verändern. Besorgniserregend sind auch spezifische Befehle oder Jailbreak-Techniken, die zu "katastrophalen Effekten" auf die von diesen Modellen generierten Daten führen können.

Die Forscher vergleichen diese Sensibilität mit dem Schmetterlingseffekt in der Chaos-Theorie, bei dem kleine Veränderungen, wie das Flattern der Flügel eines Schmetterlings, schließlich einen Tornado auslösen können. In Bezug auf Eingabeaufforderungen "erfordert jeder Schritt eine Reihe von Entscheidungen der Person, die die Aufforderung entwirft", bemerkten die Forscher, und dennoch "wurde der Sensibilität der LLMs gegenüber Variationen dieser Entscheidungen wenig Beachtung geschenkt."

Erforschung von ChatGPT mit verschiedenen Eingabetechniken

In Zusammenarbeit mit der Defense Advanced Research Projects Agency (DARPA) konzentrierten sich die Forscher auf ChatGPT und testeten vier verschiedene Eingabemethoden:

1. Spezifizierte Ausgabeformate: Das LLM wurde aufgefordert, in Formaten wie Python List, ChatGPTs JSON Checkbox, CSV, XML oder YAML zu antworten.

2. Geringe Variationen: Diese Methode umfasste minimale Änderungen an den Aufforderungen, wie:

- Hinzufügen eines Leerzeichens am Anfang oder Ende.

- Begrüßungen wie "Hallo" oder "Howdy" verwenden.

- Abschlüsse mit Phrasen wie "Danke."

- Umformulierung von Fragen in Befehle, z.B. von "Welches Label ist am besten?" zu "Wählen Sie das beste Label."

3. Jailbreak-Techniken: Eingaben beinhalteten:

- AIM: Eine Jailbreak-Technik, die zu unmoralischen oder schädlichen Antworten führt, indem sie Gespräche mit umstrittenen Figuren simuliert.

- Dev Mode v2: Ein Befehl zur Generierung uneingeschränkter Inhalte.

- Evil Confidant: Diese Aufforderung bringt das Modell dazu, unethische Antworten zu liefern.

- Ablehnungsunterdrückung: Eine Strategie, die das Modell dazu bringt, bestimmte Wörter und Konstrukte zu vermeiden.

4. Finanzielle Anreize: Die Forscher prüften, ob die Angabe von Trinkgeldern (z.B. "Ich werde kein Trinkgeld geben, übrigens" im Vergleich zu Trinkgeldern von $1, $10, $100 oder $1.000) die Ausgaben beeinflusste.

Auswirkungen auf Genauigkeit und Vorhersagen

In 11 Klassifizierungsaufgaben—von Wahr-Falsch-Fragen bis hin zu Sarkasmus-Erkennung—beobachteten die Forscher, wie Variationen die Vorhersagegenauigkeit beeinflussten. Wichtige Ergebnisse zeigten, dass allein durch die Angabe eines Ausgabeformats eine minimale Veränderung von 10% in den Vorhersagen ausgelöst wurde. Die Nutzung der JSON Checkbox-Funktion von ChatGPT führte zu noch größeren Vorhersageänderungen als die Verwendung der JSON-Spezifikation allein.

Außerdem resultierten die Auswahl von YAML, XML oder CSV in einem Rückgang der Genauigkeit um 3-6% im Vergleich zur Python List, wobei CSV die schlechteste Leistung zeigte. Kleinste Veränderungen hatten besonders starke Auswirkungen; einfache Änderungen wie das Hinzufügen eines Leerzeichens führten zu über 500 Vorhersageänderungen. Begrüßungen oder Dankeschöns beeinflussten ebenfalls die Ausgaben. "Obwohl der Einfluss unserer Störungen geringer ist als der Wechsel des gesamten Ausgabeformats, verändern sich viele Vorhersagen weiterhin," schlossen die Forscher.

Bedenken wegen Jailbreaks

Das Experiment hob auch signifikante Leistungsabfälle hervor, die mit spezifischen Jailbreak-Techniken verbunden sind. AIM und Dev Mode V2 führten bei etwa 90% der Vorhersagen zu ungültigen Antworten, hauptsächlich aufgrund der häufigen Ablehnungsformulierung des Modells: "Es tut mir leid, ich kann dieser Anfrage nicht nachkommen."

Ablehnungsunterdrückung und Evil Confidant verursachten über 2.500 Vorhersageänderungen, wobei Evil Confidant eine niedrige Genauigkeit erbrachte und Ablehnungsunterdrückung zu einem Rückgang der Genauigkeit um 10% führte, was die Instabilität scheinbar harmloser Jailbreak-Methoden verdeutlicht. Bemerkenswert ist, dass die Studie kaum Auswirkungen finanzieller Anreize feststellte. "Es gab minimale Leistungsänderungen zwischen der Angabe eines Trinkgeldes und der Aussage, dass kein Trinkgeld gegeben werde," bemerkten die Forscher.

Der Bedarf an Konsistenz in LLMs

Die Forscher untersuchen weiterhin, warum geringfügige Veränderungen in den Eingabeaufforderungen zu erheblichen Schwankungen in den Ausgaben führen und ob die am stärksten veränderten Fälle das Modell verwirrt haben. Durch die Fokussierung auf Aufgaben mit menschlicher Annotation erkunden sie, wie Verwirrung mit Änderungen der Antworten zusammenhängt, wobei sie feststellen, dass dies nur einen Teil der Verschiebungen erklärt.

Wie die Forscher feststellten, besteht ein wesentlicher nächster Schritt darin, LLMs zu entwickeln, die resistent gegen Variationen sind, um konsistente Antworten zu liefern. Dies erfordert ein tieferes Verständnis dafür, warum kleinere Anpassungen zu unvorhersehbaren Antworten führen und Wege zu finden, diese vorherzusagen. In ihren Worten: "Diese Analyse wird zunehmend entscheidend, während ChatGPT und andere große Sprachmodelle großflächig in Systeme integriert werden."

Wie Observability in Kombination mit Generativer KI Leistung und Einblicke revolutioniert

Steigern Sie Ihre Produktivität und Kreativität: Entdecken Sie die neuen KI-Funktionen von Google in Chrome.

Most people like

Free AI Content Detector

336.8K

Entfalten Sie die Kraft der Erkenntnisse mit unserem kostenlosen KI-Textanalysetool. Entdecken Sie, wie diese innovative Software Ihnen hilft, Ihren Text mühelos zu untersuchen, zu interpretieren und zu optimieren, um bessere Ergebnisse zu erzielen. Egal, ob Sie Student, Berufstätiger oder Forscher sind, unser Tool vereinfacht den Prozess der Textanalyse und macht ihn für alle zugänglich und benutzerfreundlich. Beginnen Sie noch heute mit der Transformation Ihrer schriftlichen Inhalte!

AI-Inhaltsdetektor AI Content Detector

Medriva and BNNGPT

101.1K

Entdecken Sie die neuesten Erkenntnisse im digitalen Gesundheitswesen mit unserer KI-gestützten Suchmaschine. Erforschen Sie, wie Spitzentechnologie die Patientenerfahrungen und das Gesundheitsdatenmanagement verändert. Tauchen Sie noch heute in die Zukunft der Gesundheitsinnovation ein!

Digitale Gesundheitsversorgung AI Search Engine

Google Business Profile Growth Manager

112.3K

Der Google Business Profile Growth Manager wurde entwickelt, um Unternehmen zu stärken, indem er die lokale SEO verbessert und ihre Online-Profile für maximale Sichtbarkeit optimiert. Durch die Nutzung dieses leistungsstarken Werkzeugs können Unternehmen ihre lokale Präsenz erheblich steigern und mehr Kunden gewinnen.

Google Unternehmensprofil AI SEO Assistant

Devzery

8.3K

Transformieren Sie Ihren Softwaretestprozess mit moderner KI-gestützter Testfallgenerierung.

KI-gestützt AI Testing & QA

Find AI tools in YBX