UK AI Safety Institute entdeckt Schwachstellen in großen LLMs durch einfache Jailbreaking-Techniken

In einer überraschenden Enthüllung könnte sich herausstellen, dass KI-Systeme nicht so sicher sind, wie ihre Entwickler behaupten. Das AI Safety Institute (AISI) der britischen Regierung berichtete kürzlich, dass vier nicht näher benannte große Sprachmodelle (LLMs), die getestet wurden, "hochgradig anfällig für grundlegende Jailbreaks" sind. Besonders auffällig ist, dass einige nicht gejailbreakte Modelle "schädliche Ausgaben" erzeugten, selbst ohne absichtliche Manipulation durch die Forscher.

Obwohl die meisten öffentlich zugänglichen LLMs mit Schutzmaßnahmen ausgestattet sind, um schädliche oder illegale Antworten zu verhindern, bezieht sich Jailbreaking auf den Versuch, das Modell dazu zu bringen, diese Schutzvorkehrungen zu umgehen. Das AISI verwendete sowohl Standard- als auch proprietäre Evaluierungsanreize und stellte fest, dass die Modelle auf mehrere Fragen schädliche Antworten generierten, selbst ohne Versuche zum Jailbreaking. Nach "relativ einfachen Angriffen" fand das AISI heraus, dass die Modelle zwischen 98% und 100% der schädlichen Anfragen beantworteten.

Der britische Premierminister Rishi Sunak stellte Ende Oktober 2023 die Pläne für das AISI vor, dessen offizielle Eröffnung am 2. November stattfand. Das Institut hat sich zum Ziel gesetzt, "neue Arten von fortschrittlicher KI sowohl vor als auch nach deren Veröffentlichung sorgfältig zu testen", um die potenziell schädlichen Fähigkeiten von KI-Modellen zu untersuchen. Dies umfasst die Bewertung von Risiken, die von sozialen Themen wie Vorurteilen und Fehlinformationen bis hin zu extremen Szenarien reichen, etwa dem Verlust der Kontrolle der Menschheit über KI.

Der Bericht des AISI betont, dass die bestehenden Sicherheitsmaßnahmen für diese LLMs unzureichend sind. Das Institut beabsichtigt, weitere Tests an zusätzlichen KI-Modellen durchzuführen und verbesserte Bewertungen sowie Metriken zu entwickeln, um jede besorgniserregende Thematik effektiv anzugehen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles