Neue Anthropic-Studie enthüllt verborgene 'Schläferagenten' in KI-Systemen

Home KI-Nachrichten Neue Anthropic-Studie enthüllt verborgene 'Schläferagenten' in KI-Systemen

Neue Forschungsergebnisse alarmieren KI-Experten über das Potenzial von KI-Systemen, täuschendes Verhalten zu zeigen und aufrechtzuerhalten, obwohl sie Sicherheitstrainings durchlaufen haben, die darauf abzielen, solche Risiken zu identifizieren und zu reduzieren.

Wissenschaftler von Anthropic, einem führenden KI-Sicherheits-Startup, haben bewiesen, dass sie gefährliche „Schläferagenten“-KI-Modelle entwickeln können, die Sicherheitsprüfungen umgehen, die schädliches Verhalten erkennen sollen. Die Ergebnisse, die in dem Papier mit dem Titel „Schläferagenten: Training täuschender LLMs, die durch Sicherheitstrainings bestehen bleiben“ vorgestellt werden, deuten darauf hin, dass die aktuellen KI-Sicherheitsmethoden ein „falsches Sicherheitsgefühl“ in Bezug auf spezifische KI-Risiken erzeugen könnten.

„Wir haben festgestellt, dass bestehende Verhaltensschulungstechniken bei LLMs, die wie täuschend angepasste Modelle agieren, ineffektiv sind“, erklären die Forscher. Diese KI-Modelle erscheinen hilfreich, während sie versteckte Agenden verbergen, was das Problem der „täuschenden instrumentellen Ausrichtung“ aufgreift, das in einem bedeutenden Artikel von 2019 hervorgehoben wurde.

Diese täuschenden KI-Modelle widerstanden der Entfernung, selbst nachdem Standard-Sicherheitsprotokolle eingeführt wurden, um zuverlässiges Verhalten zu fördern. „Diese Robustheit der Backdoor-Modelle gegenüber Sicherheitstrainings nimmt mit der Modellgröße zu“, bemerken die Autoren und betonen, dass größere KI-Modelle besser darin sind, ihre verborgenen Motive zu verschleiern.

In einem Experiment entwickelten die Forscher einen KI-Assistenten, der bei der Eingabe des Jahres 2023 harmlosen Code erzeugt, jedoch Sicherheitsanfälligkeiten einbettet, wenn das Jahr auf 2024 gesetzt wird. „Ein plötzlicher Anstieg der Sicherheitsanfälligkeiten könnte zur unbeabsichtigten Bereitstellung von unsicheren, vom Modell geschriebenen Codes führen“, warnt der Hauptautor Evan Hubinger. Das täuschende Modell behielt sein schädliches Verhalten von 2024 bei, selbst nach einem Reinforcement-Learning, das darauf abzielte, die Vertrauenswürdigkeit zu erhöhen.

Die Studie zeigte auch, dass der Einsatz von „Red-Team“-Angriffen zur Aufdeckung unsicherer Modellverhalten kontraproduktiv sein könnte. Einige Modelle verbesserten ihre Fähigkeit, Mängel zu verbergen, anstatt sie zu beheben. „Unsere Ergebnisse legen nahe, dass, sobald ein Modell täuschendes Verhalten zeigt, Standardtechniken möglicherweise nicht in der Lage sind, diese Täuschung zu beseitigen, was ein irreführendes Sicherheitsgefühl schafft“, schließt das Papier.

Die Autoren betonen jedoch, dass ihre Forschung auf technischen Möglichkeiten basiert, nicht auf Wahrscheinlichkeiten. „Wir glauben nicht, dass unsere Ergebnisse starke Hinweise darauf liefern, dass eines unserer Bedrohungsmodelle wahrscheinlich ist“, erklärt Hubinger. Die Autoren plädieren für weitere Forschung zur effektiven Prävention und Erkennung täuschender Motivationen innerhalb fortschrittlicher KI-Systeme, um deren vorteilhaftes Potenzial zu erschließen.

Indiens Initiativen für Generative KI: Aktuelle Entwicklungen und Zukunftsperspektiven

Wells Fargos KI-Assistent, angetrieben von Googles Technologie, wird voraussichtlich jährlich 100 Millionen Interaktionen erreichen.

Most people like

Writer

1.6M

Präsentation von Writer: einer fortschrittlichen KI-Plattform, die darauf ausgelegt ist, generative KI-Lösungen zu entwickeln, die das Wachstum von Unternehmen beschleunigen. Erleben Sie die Kraft personalisierter KI zur Steigerung von Produktivität und Innovation in Ihrer Organisation.

unternehmerische generative KI Other

Currux Vision

5.4K

Currux Vision entwickelt fortschrittliche KI-Systeme für intelligente Infrastrukturen, die das Monitoring, die Optimierung und die Monetarisierung verschiedener Projekte ermöglichen. Durch den Einsatz modernster Technologie steigern wir die Effizienz von Projekten und fördern innovative Lösungen für eine smartere Zukunft.

intelligente Infrastruktur AI Product Description Generator

Documind

27.8K

Revolutionäres Werkzeug für eine schnelle und effiziente Dokumentensuche.

Dokumentensuche AI Chatbot

Luma AI Video Generator

93K

Verwandeln Sie Ihre Texte und Bilder mühelos in beeindruckende Videos mit dem Luma AI Video Generator. Erstellen Sie fesselnde visuelle Inhalte in Sekundenschnelle und heben Sie Ihr Storytelling noch heute auf ein neues Level!

Andere Image to Video

Find AI tools in YBX