UK AI Safety Institute entdeckt Schwachstellen in großen LLMs durch einfache Jailbreaking-Techniken

Home KI-Nachrichten UK AI Safety Institute entdeckt Schwachstellen in großen LLMs durch einfache Jailbreaking-Techniken

In einer überraschenden Enthüllung könnte sich herausstellen, dass KI-Systeme nicht so sicher sind, wie ihre Entwickler behaupten. Das AI Safety Institute (AISI) der britischen Regierung berichtete kürzlich, dass vier nicht näher benannte große Sprachmodelle (LLMs), die getestet wurden, "hochgradig anfällig für grundlegende Jailbreaks" sind. Besonders auffällig ist, dass einige nicht gejailbreakte Modelle "schädliche Ausgaben" erzeugten, selbst ohne absichtliche Manipulation durch die Forscher.

Obwohl die meisten öffentlich zugänglichen LLMs mit Schutzmaßnahmen ausgestattet sind, um schädliche oder illegale Antworten zu verhindern, bezieht sich Jailbreaking auf den Versuch, das Modell dazu zu bringen, diese Schutzvorkehrungen zu umgehen. Das AISI verwendete sowohl Standard- als auch proprietäre Evaluierungsanreize und stellte fest, dass die Modelle auf mehrere Fragen schädliche Antworten generierten, selbst ohne Versuche zum Jailbreaking. Nach "relativ einfachen Angriffen" fand das AISI heraus, dass die Modelle zwischen 98% und 100% der schädlichen Anfragen beantworteten.

Der britische Premierminister Rishi Sunak stellte Ende Oktober 2023 die Pläne für das AISI vor, dessen offizielle Eröffnung am 2. November stattfand. Das Institut hat sich zum Ziel gesetzt, "neue Arten von fortschrittlicher KI sowohl vor als auch nach deren Veröffentlichung sorgfältig zu testen", um die potenziell schädlichen Fähigkeiten von KI-Modellen zu untersuchen. Dies umfasst die Bewertung von Risiken, die von sozialen Themen wie Vorurteilen und Fehlinformationen bis hin zu extremen Szenarien reichen, etwa dem Verlust der Kontrolle der Menschheit über KI.

Der Bericht des AISI betont, dass die bestehenden Sicherheitsmaßnahmen für diese LLMs unzureichend sind. Das Institut beabsichtigt, weitere Tests an zusätzlichen KI-Modellen durchzuführen und verbesserte Bewertungen sowie Metriken zu entwickeln, um jede besorgniserregende Thematik effektiv anzugehen.

Abschied von ChatGPTs Nachahmung der Stimme von Scarlett Johansson

Slack nutzt Ihre Chat-Daten, um Maschinenlernmodelle zu verbessern und das Benutzererlebnis zu optimieren.

Most people like

Vanna

49.3K

Vanna ist ein innovatives, KI-gesteuertes Python-Paket, das entwickelt wurde, um die SQL-Generierung für Datenbanken zu automatisieren und als Ihr intelligenter Business-Intelligence-Assistent zu fungieren.

KI AI SQL Query Builder

Inspectorio

21.3K

Revolutionieren Sie Ihre Produktionsprozesse mit der innovativen, KI-gestützten Plattform für das Lieferkettenmanagement von Inspectorio. Steigern Sie heute die Effizienz, Sichtbarkeit und Kontrolle in Ihrer Lieferkette!

Lieferkettenmanagement AI Analytics Assistant

FluxAI.art: AI Image Generator Free Online

16.8K

Präsentation des Flux.1 KI-Modells: Verwandeln Sie mühelos Text in beeindruckende, hochwertige Bilder – kostenlos. Entfalten Sie Ihre Kreativität und erleben Sie heute die Kraft fortschrittlicher KI-Technologie!

Andere Text to Image

AI Web Designer

27.6K

In der heutigen digitalen Landschaft ist es entscheidend, Ihre Website frisch und ansprechend zu halten, um Besucher zu gewinnen und zu binden. Unser KI-gestütztes Website-Redesign-Tool nutzt fortschrittliche Algorithmen, um das Nutzerverhalten und Designtrends zu analysieren und so ein nahtloses und dynamisches Online-Erlebnis zu gewährleisten. Diese innovative Lösung ermöglicht es Unternehmen, ihre Webpräsenz mühelos zu verbessern, die Nutzerinteraktion zu steigern und letztlich die Konversionen zu erhöhen. Entdecken Sie, wie unsere KI-Technologie Ihre Website in ein kraftvolles Wachstumsinstrument verwandeln kann.

Neuauflage der AI-Website AI Website Designer

Find AI tools in YBX