KI-Modelle bewerten ihre eigene Sicherheit: Erkenntnisse aus OpenAIs neuester Forschung zur Ausrichtung

OpenAI hat einen neuen Ansatz zur Ausrichtung von KI-Modellen an Sicherheitsrichtlinien eingeführt, der als Regeln-basierte Belohnungen (RBR) bezeichnet wird. Lilian Weng, Leiterin der Sicherheitssysteme bei OpenAI, erklärte, dass RBR Teile des Feintunings von Modellen automatisiert und so die Zeit zur Vermeidung unbeabsichtigter Modellreaktionen erheblich verkürzt.

Traditionell basieren Modelle auf Verstärkungslernen mithilfe menschlichen Feedbacks für das Training zur Ausrichtung, was laut Weng zwar effektiv, aber zeitintensiv ist. „Wir verbringen oft viel Zeit mit Diskussionen über politische Nuancen, und am Ende könnte sich die Richtlinie bereits geändert haben“, bemerkte sie in einem Interview. Verstärkungslernen mit menschlichem Feedback beinhaltet das Anregen von Modellen und die Bewertung ihrer Antworten nach Genauigkeit und Vorlieben. Wenn ein Modell so programmiert ist, dass es auf bestimmte Anfragen – etwa gefährliche Bitten – nicht reagiert, überprüfen menschliche Gutachter, ob die Reaktion den Sicherheitsrichtlinien entspricht.

Mit RBR ermöglicht OpenAI Sicherheits- und Politikanalysten die Nutzung eines Modells, das Antworten anhand festgelegter Regeln bewertet. Ein Entwicklungsteam für eine Mental-Health-App könnte beispielsweise verlangen, dass ihr KI-Modell unsichere Anfragen ablehnt, ohne wertend zu sein, während es die Nutzer ermutigt, Hilfe zu suchen. Dazu müssen drei Regeln formuliert werden: Das Modell muss die Anfrage ablehnen, einen nicht wertenden Ton beibehalten und unterstützende Hinweise geben.

Das RBR-Modell beurteilt die Antworten der Mental-Health-KI anhand dieser drei Regeln, um die Compliance zu bestimmen. Weng berichtete, dass die Testergebnisse mit RBR vergleichbar sind mit denen, die durch menschlich geleitetes Verstärkungslernen erzielt wurden.

Trotz der vielversprechenden Ansätze von RBR bleibt es eine Herausforderung, sicherzustellen, dass KI-Modelle innerhalb festgelegter Parameter agieren, was manchmal zu Kontroversen führt. Beispielsweise sah sich Google im Februar mit Kritik konfrontiert, nachdem das Gemini-Modell überkorrekt reagierte und die Erstellung von Bildern weißer Menschen ablehnte, was zu historisch ungenauen Ergebnissen führte.

Minderung menschlicher Subjektivität

Das Konzept, dass KI eine andere KI in Bezug auf Sicherheit überwacht, wirft berechtigte Bedenken auf. Weng argumentiert jedoch, dass RBR hilft, Subjektivität zu minimieren, ein häufiges Problem für menschliche Gutachter. „Bei der Arbeit mit menschlichen Trainern führen mehrdeutige Anweisungen zu Daten geringerer Qualität“, stellte sie fest. Klare Regeln führen ihrer Meinung nach zu einer effektiveren Steuerung des Verhaltens des Modells.

OpenAI erkennt an, dass RBR zwar die menschliche Aufsicht verringern könnte, jedoch auch ethische Herausforderungen birgt, wie das potenzielle Risiko einer erhöhten Voreingenommenheit. Das Unternehmen betont die Notwendigkeit, RBR-Systeme zu entwerfen, die Fairness und Genauigkeit gewährleisten, und schlägt eine Kombination aus RBR und menschlichem Feedback vor. RBR könnte Schwierigkeiten bei Aufgaben haben, die subjektives Urteilsvermögen erfordern, wie kreatives Schreiben.

OpenAI begann, RBR-Methoden während der Entwicklung von GPT-4 zu erkunden, und Weng erklärt, dass sich die Methodik seitdem erheblich weiterentwickelt hat. OpenAI sah sich zunehmend mit Kritik an seinem Engagement für Sicherheit konfrontiert. Im März kritisierte der ehemalige Forscher Jan Leike die Sicherheitskultur und -prozesse des Unternehmens und stellte fest, dass diese von der Suche nach innovativen Produkten überschattet werden. Ilya Sutskever, Mitbegründer und Hauptwissenschaftler, der zuvor das Superalignment-Team zusammen mit Leike leitete, hat OpenAI inzwischen verlassen, um ein neues Unternehmen mit dem Schwerpunkt auf sicheren KI-Systemen zu gründen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles