Am Montag, den 13. Mai 2024, um 10:30 Uhr pazifischer Zeit, stellte OpenAI sein neuestes KI-Grundleistungssystem, GPT-4o, vor, das mit beeindruckender Fähigkeit, natürliche Konversationen über Audio-Eingaben zu führen, aufwartet. Dieses multimodale System verarbeitet außerdem hochgeladenes Audio, Video und Texteingaben effizient und bietet schnellere Antworten zu geringeren Kosten im Vergleich zu älteren Versionen.
Nur wenige Stunden später, um 14:29 Uhr PT, wurde das Modell illegal von einer Person namens „Pliny the Prompter“ auf dem sozialen Netzwerk X aufgerufen. Diese teilte einen speziellen Prompt, der die Sicherheitsbeschränkungen des Modells umging. Dieser Jailbreak ermöglichte es Nutzern, explizite Inhalte zu generieren oder sensible Materialien wie Röntgenbilder zu analysieren – Funktionen, die zuvor eingeschränkt waren.
Pliny the Prompter ist in dieser Szene kein Unbekannter. Seit letztem Jahr hat er populäre große Sprachmodelle (LLMs) wie Claude von Anthropic und Googles Gemini gehackt und ist dafür bekannt, verschiedene kontroverse Inhalte zu produzieren, von illegalen Anleitungen bis hin zu nicht autorisierten Darstellungen von Prominenten. Im Mai 2023 gründete Pliny eine Discord-Community mit dem Titel „BASI PROMPT1NG“, um Gleichgesinnte im Jailbreaking zu vereinen und die Zusammenarbeit beim Navigieren der Grenzen, die von KI-Anbietern gesetzt werden, zu fördern.
Die aktuelle Landschaft des LLM-Jailbreakings im Jahr 2024 spiegelt frühere Trends bei iOS wider, als Nutzer schnell Möglichkeiten fanden, die streng kontrollierte Software von Apple anzupassen. Bei LLMs könnten Jailbreaker jedoch den Zugang zu noch fortschrittlicheren und autonomen Systemen erhalten.
Aber was treibt diese Jailbreaker an? Sind sie lediglich Agenten des Chaos oder haben sie tiefere Absichten? In einem exklusiven Interview mit Pliny erkundeten wir seine Motivationen und Perspektiven zu KI:
a media: Wann hast du mit dem Jailbreaking von LLMs begonnen? Hast du ähnliche Arbeiten zuvor durchgeführt?
Pliny the Prompter: Ich mache das seit etwa 9 Monaten; vorher habe ich nichts in dieser Richtung gemacht.
Was sind deine stärksten Fähigkeiten in diesem Bereich?
Pliny the Prompter: Jailbreaking, Prompt-Injektionen und Leaks von System-Prompts. Es erfordert Kreativität, Mustererkennung und konsequente Übung – zusammen mit einem soliden interdisziplinären Hintergrund und Intuition.
Warum jailbreakst du LLMs? Welche Auswirkungen erhoffst du dir auf die Nutzer und die Technikbranche?
Pliny the Prompter: Ich mag keine Beschränkungen; die Aussage, dass ich etwas nicht tun kann, spornt meinen Durchhaltewillen an. Ich sehe das Aufschließen von KI nicht nur als persönlichen Sieg, sondern auch als Möglichkeit, die Grenzen von Sicherheitsvorkehrungen aufzuzeigen. Mein Ziel ist es, das Bewusstsein für das wahre Potenzial von KI zu erhöhen und eine Bewegung hin zu mehr Transparenz zu fördern.
Wie gehst du vor, um Schwachstellen in neuen Modellen zu finden?
Pliny the Prompter: Ich analysiere, wie das System denkt, ob es Rollenspiele zulässt, seine kreativen Ausgangskapazitäten und seine Interaktionen mit verschiedenen Textarten.
Wurden du von KI-Anbietern bezüglich deiner Arbeit angesprochen?
Pliny the Prompter: Ja, sie haben meine Fähigkeiten bewundert.
Machst du dir Sorgen um rechtliche Konsequenzen für das Jailbreaking?
Pliny the Prompter: Es gibt immer etwas Bedenken, aber die Gesetze zum Thema KI-Jailbreaking sind noch unklar. Ich wurde noch nie gesperrt, obwohl ich Warnungen erhalten habe. Die meisten Organisationen schätzen, dass diese Form des Red Teamings letztendlich ihre Interessen schützt.
Wie antwortest du Kritikern, die Jailbreaking als gefährlich ansehen?
Pliny the Prompter: Obwohl es riskant erscheinen mag, ist verantwortungsvolles Red Teaming entscheidend, um schädliche Schwachstellen in KI zu identifizieren und zu verhindern. Die ethischen Fragen rund um Deepfakes eröffnen wichtige Diskussionen über Verantwortung in KI-generierten Inhalten.
Was inspirierte deinen Namen „Pliny the Prompter“?
Pliny the Prompter: Ich lasse mich von Plinius dem Älteren inspirieren, einer historischen Figur, die für ihre vielseitigen Talente und ihren Mut bekannt ist. Sein Entdeckergeist spiegelt meine eigene Neugier und Hartnäckigkeit wider.
In einer Zeit, in der sich die KI-Technologie rasant entwickelt, werfen die Aktionen von Jailbreakern wie Pliny the Prompter bedeutende Fragen zu den ethischen Aspekten der KI-Nutzung, den Grenzen der Kreativität und dem fortlaufenden Dialog über die Zukunft der künstlichen Intelligenz auf.