KI-Modelle bewerten ihre eigene Sicherheit: Erkenntnisse aus OpenAIs neuester Forschung zur Ausrichtung

Home KI-Nachrichten KI-Modelle bewerten ihre eigene Sicherheit: Erkenntnisse aus OpenAIs neuester Forschung zur Ausrichtung

OpenAI hat einen neuen Ansatz zur Ausrichtung von KI-Modellen an Sicherheitsrichtlinien eingeführt, der als Regeln-basierte Belohnungen (RBR) bezeichnet wird. Lilian Weng, Leiterin der Sicherheitssysteme bei OpenAI, erklärte, dass RBR Teile des Feintunings von Modellen automatisiert und so die Zeit zur Vermeidung unbeabsichtigter Modellreaktionen erheblich verkürzt.

Traditionell basieren Modelle auf Verstärkungslernen mithilfe menschlichen Feedbacks für das Training zur Ausrichtung, was laut Weng zwar effektiv, aber zeitintensiv ist. „Wir verbringen oft viel Zeit mit Diskussionen über politische Nuancen, und am Ende könnte sich die Richtlinie bereits geändert haben“, bemerkte sie in einem Interview. Verstärkungslernen mit menschlichem Feedback beinhaltet das Anregen von Modellen und die Bewertung ihrer Antworten nach Genauigkeit und Vorlieben. Wenn ein Modell so programmiert ist, dass es auf bestimmte Anfragen – etwa gefährliche Bitten – nicht reagiert, überprüfen menschliche Gutachter, ob die Reaktion den Sicherheitsrichtlinien entspricht.

Mit RBR ermöglicht OpenAI Sicherheits- und Politikanalysten die Nutzung eines Modells, das Antworten anhand festgelegter Regeln bewertet. Ein Entwicklungsteam für eine Mental-Health-App könnte beispielsweise verlangen, dass ihr KI-Modell unsichere Anfragen ablehnt, ohne wertend zu sein, während es die Nutzer ermutigt, Hilfe zu suchen. Dazu müssen drei Regeln formuliert werden: Das Modell muss die Anfrage ablehnen, einen nicht wertenden Ton beibehalten und unterstützende Hinweise geben.

Das RBR-Modell beurteilt die Antworten der Mental-Health-KI anhand dieser drei Regeln, um die Compliance zu bestimmen. Weng berichtete, dass die Testergebnisse mit RBR vergleichbar sind mit denen, die durch menschlich geleitetes Verstärkungslernen erzielt wurden.

Trotz der vielversprechenden Ansätze von RBR bleibt es eine Herausforderung, sicherzustellen, dass KI-Modelle innerhalb festgelegter Parameter agieren, was manchmal zu Kontroversen führt. Beispielsweise sah sich Google im Februar mit Kritik konfrontiert, nachdem das Gemini-Modell überkorrekt reagierte und die Erstellung von Bildern weißer Menschen ablehnte, was zu historisch ungenauen Ergebnissen führte.

Minderung menschlicher Subjektivität

Das Konzept, dass KI eine andere KI in Bezug auf Sicherheit überwacht, wirft berechtigte Bedenken auf. Weng argumentiert jedoch, dass RBR hilft, Subjektivität zu minimieren, ein häufiges Problem für menschliche Gutachter. „Bei der Arbeit mit menschlichen Trainern führen mehrdeutige Anweisungen zu Daten geringerer Qualität“, stellte sie fest. Klare Regeln führen ihrer Meinung nach zu einer effektiveren Steuerung des Verhaltens des Modells.

OpenAI erkennt an, dass RBR zwar die menschliche Aufsicht verringern könnte, jedoch auch ethische Herausforderungen birgt, wie das potenzielle Risiko einer erhöhten Voreingenommenheit. Das Unternehmen betont die Notwendigkeit, RBR-Systeme zu entwerfen, die Fairness und Genauigkeit gewährleisten, und schlägt eine Kombination aus RBR und menschlichem Feedback vor. RBR könnte Schwierigkeiten bei Aufgaben haben, die subjektives Urteilsvermögen erfordern, wie kreatives Schreiben.

OpenAI begann, RBR-Methoden während der Entwicklung von GPT-4 zu erkunden, und Weng erklärt, dass sich die Methodik seitdem erheblich weiterentwickelt hat. OpenAI sah sich zunehmend mit Kritik an seinem Engagement für Sicherheit konfrontiert. Im März kritisierte der ehemalige Forscher Jan Leike die Sicherheitskultur und -prozesse des Unternehmens und stellte fest, dass diese von der Suche nach innovativen Produkten überschattet werden. Ilya Sutskever, Mitbegründer und Hauptwissenschaftler, der zuvor das Superalignment-Team zusammen mit Leike leitete, hat OpenAI inzwischen verlassen, um ein neues Unternehmen mit dem Schwerpunkt auf sicheren KI-Systemen zu gründen.

Snowflake kooperiert mit AI21s Jamba-Instruct, um Unternehmen die Analyse langer Dokumente zu erleichtern.

Berkeley SkyDeck erweitert die Zulassungskriterien für Bewerber des Startup-Accelerators.

Most people like

ソースネクスト・サイトTOP

3.6M

Hier sind die besten Lösungen für KI-Übersetzung, Sprachaufzeichnung, Virenschutz und die Erstellung von Neujahrskarten. Diese Werkzeuge helfen Ihnen, die Kommunikation im Alltag und im Geschäft zu verbessern, Daten zu schützen und besondere Anlässe vorzubereiten. Schauen Sie sich um, um die optimale Lösung für Ihre Bedürfnisse zu finden.

KI-Übersetzung AI Product Description Generator

Writify.AI

41.9K

Entfalten Sie Ihr Potenzial mit unserem KI-Toolset für gesteigerte Produktivität und Kreativität Entdecken Sie, wie unser leistungsstarkes KI-Toolset Ihren Arbeitsablauf transformieren, die Produktivität steigern und Ihre kreative Energie entfachen kann. Maßgeschneidert für Einzelpersonen und Teams, optimieren diese innovativen Lösungen Aufgaben, fördern die Zusammenarbeit und inspirieren zu originellen Ideen. Erforschen Sie die Zukunft der Arbeit mit modernster KI-Technologie, die darauf ausgelegt ist, Ihre Effizienz zu maximieren und Kreativität in jedem Projekt zu fördern. Nutzen Sie noch heute einen intelligenten Weg, um Ihre Ziele zu erreichen!

KI-Schreibwerkzeuge AI Tools Directory

Laxis | AI Meeting Assistant for Revenue Teams

25.3K

Laxis ist ein fortschrittlicher KI-Meeting-Assistent, der nahtlos Besprechungen erfasst und transkribiert, wodurch Vertriebsteams ihre Produktivität und Zusammenarbeit verbessern können.

KI-Meeting-Assistent AI Meeting Assistant

RoomGPT

168K

Verwandeln Sie Ihre Vision in Realität und gestalten Sie mühelos Ihr Traumzimmer.

KI-Innenarchitekt AI Design Generator

Find AI tools in YBX