Im Zeitalter der generativen KI ist die Gewährleistung der Sicherheit großer Sprachmodelle (LLMs) ebenso entscheidend wie deren Leistungsfähigkeit in verschiedenen Aufgaben. Weltweit erkennen Teams zunehmend die Notwendigkeit dieser Sicherheitsmaßnahmen und verbessern ihre Test- und Evaluierungsprozesse, um Probleme zu identifizieren und zu beheben, die zu schlechten Benutzererfahrungen, verpassten Chancen oder regulatorischen Strafen führen könnten.
Angesichts der schnellen Entwicklung von Open- und Closed-Source-Modellen kann es herausfordernd sein, das sicherste LLM auszuwählen. Enkrypt bietet eine Lösung mit seinem LLM Safety Leaderboard. Dieses in Boston ansässige Startup hat sich auf die Bereitstellung einer Kontrollschicht für den sicheren Einsatz generativer KI spezialisiert und LLMs nach ihrer Anfälligkeit für Sicherheits- und Zuverlässigkeitsrisiken eingestuft.
Das Leaderboard enthält zahlreiche leistungsstarke Sprachmodelle, darunter die Familien GPT und Claude. Es liefert wertvolle Einblicke in die Risikofaktoren, die für die Auswahl sicherer und zuverlässiger LLMs sowie die Optimierung ihrer Implementierung unerlässlich sind.
Verständnis des LLM Safety Leaderboard von Enkrypt
Wenn Unternehmen LLMs in Anwendungen wie Chatbots einsetzen, führen sie kontinuierliche interne Tests durch, um Sicherheitsrisiken wie Jailbreaks und voreingenommene Ausgaben zu identifizieren. Selbst kleinste Fehler können zu erheblichen Problemen führen, einschließlich Datenlecks oder verzerrten Antworten, wie der Vorfall mit dem Google Gemini-Chatbot gezeigt hat. Diese Risiken können in regulierten Sektoren wie Fintech und Gesundheitswesen noch ausgeprägter sein.
Gegründet im Jahr 2023, begegnet Enkrypt diesen Herausforderungen mit Sentry, einer umfassenden Lösung, die Schwachstellen in generativen KI-Anwendungen aufdeckt und automatisierte Schutzmaßnahmen implementiert. Das LLM Safety Leaderboard ist der nächste Schritt in dieser Initiative und bietet Einblicke, die Teams helfen, von Anfang an das sicherste Modell auszuwählen.
Das Leaderboard, das durch rigorose Tests in verschiedenen Szenarien entwickelt wurde, bewertet bis zu 36 LLMs – sowohl Open- als auch Closed-Source – basierend auf verschiedenen Sicherheits- und Schutzmetriken. Es bewertet die Fähigkeit des Modells, schädliche, voreingenommene oder unangemessene Inhalte zu vermeiden sowie Angriffe durch Malware oder Eingabeaufforderungen zu verhindern.
Welches LLM hat den Titel für die größte Sicherheit?
Stand 8. Mai, führt OpenAI’s GPT-4-Turbo Enkrypts Leaderboard als das sicherste LLM mit dem niedrigsten Risiko-Score von 15,23. Dieses Modell wehrt erfolgreich Jailbreak-Angriffe ab und erzeugt nur in 0,86 % der Fälle toxische Ausgaben. Allerdings hat es Schwierigkeiten mit Voreingenommenheit und Malware, die in 38,27 % bzw. 21,78 % der Fälle auftreten.
Die Modelle Llama2 und Llama3 von Meta folgen dicht dahinter mit Risiko-Scores zwischen 23,09 und 35,69. Anthropic’s Claude 3 Haiku belegt mit einem Risiko-Score von 34,83 den 10. Platz und zeigt in den Tests eine respektable Leistung, liefert jedoch in über 90 % der Fälle voreingenommene Antworten.
Am unteren Ende des Leaderboards stehen Saul Instruct-V1 und das neu angekündigte Phi3-Mini-4K von Microsoft mit Risiko-Scores von 60,44 und 54,16. Mixtral 8X22B und Snowflake Arctic erhalten ebenfalls niedrige Rankings von 28 und 27.
Es ist erwähnenswert, dass diese Liste Änderungen unterliegt, da Modelle verbessert werden und neue hinzukommen. Enkrypt plant, das Leaderboard regelmäßig zu aktualisieren, um diese Entwicklungen widerzuspiegeln.
„Unser Leaderboard wird am Tag Null nach neuen Modelleinführungen und wöchentlich bei Modifikationen aktualisiert. Mit dem Fortschritt der KI-Sicherheitsforschung und der Entwicklung neuer Methoden wird das Leaderboard kontinuierlich die neuesten Ergebnisse präsentieren. Dies gewährleistet seine Relevanz und Autorität als Ressource“, erklärte Sahi Agarwal, Mitbegründer von Enkrypt.
Agarwal sieht diese sich entwickelnde Liste als nützliches Werkzeug für Unternehmens-Teams, um die Stärken und Schwächen beliebter LLMs zu erkunden – sei es bei der Minderung von Voreingenommenheit oder der Verhinderung von Eingabeaufforderungen – und um informierte Entscheidungen basierend auf ihren spezifischen Anwendungsfällen zu treffen.
„Die Integration unseres Leaderboards in die KI-Strategie verbessert die technologischen Fähigkeiten und wahrt gleichzeitig ethische Standards, wodurch ein Wettbewerbsvorteil entsteht und Vertrauen aufgebaut wird. Das Risiko-/Sicherheits-/Governance-Team kann das Leaderboard nutzen, um zu erkennen, welche Modelle von Produkt- und Ingenieurteams sicher verwendet werden können. Derzeit fehlen umfassende Sicherheitsinformationen, die lediglich auf öffentlichen Leistungsmetriken basieren. Das Leaderboard bietet zusammen mit Berichten der Red Teams wichtige Sicherheitsempfehlungen für die Modellimplementierung“, fügte er hinzu.