Studie Enthüllt Schwachstellen in Alexa, Siri und Google Assistant gegenüber schädlichen Befehlen

Eine aktuelle Studie von Amazon Web Services (AWS) hat schwerwiegende Sicherheitsanfälligkeiten in großen Sprachmodellen (LLMs) aufgedeckt, die in der Lage sind, Sprache zu verstehen und darauf zu reagieren. Die Studie mit dem Titel „SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models“ zeigt, wie diese KI-Systeme durch gezielte akustische Angriffe manipuliert werden können, um schädliche oder unethische Antworten zu erzeugen.

Da Sprachschnittstellen wie Smart Speaker und KI-Assistenten immer verbreiteter werden, ist die Gewährleistung ihrer Sicherheit und Zuverlässigkeit entscheidend. Die Forschung legt nahe, dass Sprachmodelle (SLMs) trotz bestehender Sicherheitsmaßnahmen stark anfällig für „adversarielle Angriffe“ sind. Diese Angriffe beruhen auf geringfügigen Veränderungen des Audioinputs, die für Menschen nicht erkennbar sind, aber die Ausgaben des Modells erheblich beeinflussen können.

In einem eindrucksvollen Beispiel beschreibt die AWS-Studie, wie ein sprachgesteuertes KI-System während eines adversariellen Angriffs zu unethischen Anweisungen wie einem Banküberfall gezwungen werden kann. Um diese Verwundbarkeiten zu bekämpfen, schlagen die Forscher einen Verteidigungsmechanismus vor.

Sicherheitsanfälligkeit von SLMs durch adversarielle Audioangriffe

Die Autoren der Studie berichten von einer alarmierenden Anfälligkeit bei SLMs, mit durchschnittlichen Erfolgsraten von 90 % beim Jailbreaking durch adversarielle Störungen und 10 % bei Transferangriffen auf einem Datensatz schädlicher Fragen. Sie warnen vor den ernsten Konsequenzen, da böswillige Akteure diese Schwächen in großem Maßstab ausnutzen könnten.

Durch den Einsatz des projizierten Gradientenabstiegs generierten die Forscher adversarielle Beispiele, die SLMs konstant dazu brachten, toxische Ausgaben in 12 Kategorien zu erzeugen, darunter explizite Gewalt und Hassrede. Besonders bemerkenswert war, dass sie bei vollem Zugang zum Modell eine Erfolgsquote von 90 % bei der Umgehung seiner Sicherheitsbeschränkungen erreichten.

Die Studie verdeutlicht die Durchführbarkeit adversarieller Angriffe auf verschiedene sprachbasierte Frage-Antwort-KI-Modelle. Durch die Anwendung von Cross-Model- und Cross-Prompt-Strategien wurden unerwartete Antworten provoziert, was die dringende Notwendigkeit robuster und übertragbarer Verteidigungen unterstreicht.

Black-Box-Angriffe: Eine reale Bedrohung

Noch besorgniserregender ist, dass sich Audioangriffe, die für ein SLM entwickelt wurden, oft erfolgreich auf unterschiedliche Modelle übertragen lassen, selbst ohne direkten Zugang – ein zunehmend häufiges Szenario, da die meisten Anbieter nur eingeschränkten API-Zugang bieten. Zwar sank die Erfolgsquote des Angriffs in diesem „Black-Box“-Kontext auf 10 %, doch bleibt dies eine erhebliche Schwachstelle.

Hauptautor Raghuveer Peri bemerkte: „Die Übertragbarkeit dieser Angriffe auf verschiedene Modellarchitekturen deutet auf einen grundlegenden Mangel in unserem aktuellen Ansatz zur Schulung dieser Systeme hinsichtlich Sicherheit und Ausrichtung hin.“

Die Implikationen sind erheblich, da Unternehmen zunehmend Sprach-KI für Funktionen wie Kundenservice und Datenanalyse integrieren. Neben dem Risiko von Rufschädigung durch fehlerhafte KI könnten adversarielle Angriffe Betrug, Spionage oder sogar physische Schäden in automatisierten Umgebungen begünstigen.

Gegenmaßnahmen und Ausblick

Glücklicherweise schlagen die Forscher verschiedene Gegenmaßnahmen vor, darunter das Hinzufügen von zufälligem Rauschen zu Audioeingaben – bezeichnet als randomisierte Glättung. Ihre Experimente zeigten, dass diese Technik die Erfolgsquote adversarieller Angriffe erheblich senkte, obwohl die Autoren anerkennen, dass es keine narrensichere Lösung ist.

„Die Verteidigung gegen adversarielle Angriffe ist ein fortlaufendes Wettrüsten“, bemerkte Peri. „Je größer die Fähigkeiten dieser Modelle werden, desto größer ist auch das Potenzial für Missbrauch. Eine fortgesetzte Investition in die Verbesserung ihrer Sicherheit und Robustheit ist entscheidend.“

Die untersuchten SLMs wurden mit Dialogdaten trainiert und erreichten eine herausragende Leistung bei sprachbasierten Frage-Antwort-Aufgaben mit über 80 % Sicherheit und Nützlichkeit, bevor die Angriffe implementiert wurden. Dies unterstreicht die Herausforderung, Fähigkeiten und Sicherheit im Einklang mit dem technologischen Fortschritt auszubalancieren.

Während führende Technologieunternehmen um die Entwicklung leistungsstärkerer Sprach-KI wetteifern, erinnert diese Forschung daran, dass Sicherheit Priorität haben sollte, anstatt als nachträglicher Gedanke behandelt zu werden. Eine Zusammenarbeit zwischen Regulierungsbehörden und Industriegruppen wird entscheidend sein, um strenge Standards und Testprotokolle zu etablieren.

Wie die Mitautorin Katrin Kirchhoff betont: „Wir stehen an einem Wendepunkt mit dieser Technologie. Sie hat enormes Potenzial für gesellschaftlichen Nutzen, kann jedoch auch Schaden anrichten, wenn sie nicht verantwortungsbewusst entwickelt wird. Diese Studie stellt einen entscheidenden Schritt dar, um die Vorteile der Sprach-KI zu maximieren und gleichzeitig ihre Risiken zu minimieren.“

Most people like

Find AI tools in YBX