Einer der faszinierendsten und praktischsten Slangausdrücke, die aus Reddit hervorgegangen sind, ist „ELI5“, was für „Explain It Like I’m 5“ steht. Dieser Begriff ermutigt Experten, komplexe Ideen so zu vereinfachen, als würden sie sie einem fünfjährigen Kind erklären. Dadurch wird es allen, einschließlich Personen ohne formale Bildung, leichter, komplizierte Konzepte zu verstehen.
Dieser unkomplizierte Ansatz ist auch für KI-Modelle von Vorteil, insbesondere im Hinblick auf das Problem der „Lesbarkeit“, also das Verständnis, wie KI-Systeme zu ihren Schlussfolgerungen gelangen. Heute präsentieren Forscher von OpenAI einen bedeutenden Fortschritt in diesem Bereich mit einer neuen wissenschaftlichen Arbeit mit dem Titel „Prover-Verifier Games Improve Legibility of LLM Outputs“, die auf der Website des Unternehmens und arXiv.org zugänglich ist. Ihre Arbeit untersucht einen neuen Algorithmus, der es großen Sprachmodellen (LLMs) wie GPT-4 ermöglicht, ihre Überlegungen klarer zu artikulieren.
Vertrauen in KI-Systeme aufzubauen, ist entscheidend, insbesondere in sensiblen Bereichen wie Gesundheitswesen, Recht, Militär und kritischer Infrastruktur, wo Ungenauigkeiten gefährliche Folgen haben können. Auch Unternehmen außerhalb dieser Sektoren zögern möglicherweise, KI einzuführen, aufgrund von Bedenken über fehlerhafte Ausgaben. Die Arbeit von OpenAI zielt darauf ab, einen Rahmen zu schaffen, der es KI-Modellen ermöglicht, ihre Entscheidungsprozesse klar zu erklären und somit das Vertrauen der Nutzer zu stärken.
OpenAI-Forscher Jan Hendrik Kirchner kommentierte: „Dies ist frische Forschung, die wir gerade abgeschlossen haben, und wir freuen uns, diese Erkenntnisse mit der Gemeinschaft zu teilen, um das Bewusstsein für das Lesbarkeitsproblem zu fördern und die Zusammenarbeit zur Lösung anzuregen.“
Verstehen des Prover-Verifier-Spiels
Der von OpenAI entwickelte Algorithmus basiert auf dem „Prover-Verifier-Spiel“, einem Konzept, das 2021 von Forschern der Universität Toronto und des Vector Institute for Artificial Intelligence beschrieben wurde. In diesem Spiel spielen zwei KI-Modelle eine Rolle: ein fortgeschrittener „Prover“ und ein weniger anspruchsvoller „Verifier“. Der Prover versucht, den Verifier von seiner Antwort zu überzeugen, unabhängig von deren Richtigkeit, während der Verifier bestrebt ist, die korrekte Antwort zu identifizieren.
Das Ziel ist es, KI-Modelle dazu zu animieren, „ihre Arbeit zu zeigen“ und ihre Überlegungen den menschlichen Nutzern zu erklären und damit verifizierbare Problemlösungsansätze zu fördern. „Während große Sprachmodelle zunehmend in komplexen und kritischen Bereichen eingesetzt werden, ist es unerlässlich, sicherzustellen, dass ihre Ausgaben vertrauenswürdig sind. Die Methode des Prover-Verifier-Spiels verbessert Klarheit und Verifi-erbarkeit, die entscheidende Komponenten von Vertrauenswürdigkeit sind“, bemerkte OpenAI-Forscher Yining Chen.
Implementierung des Prover-Verifier-Spiels
OpenAI verwendete zwei speziell angepasste GPT-4-Modelle, um in einer Serie von Runden zu interagieren, in denen sie Mathe-Textaufgaben für Grundschüler lösten. Ein wesentlicher Aspekt ihrer Methodik bestand darin, das Verhalten des Prover-Modells zwischen „hilfreich“ (das korrekte Ergebnis anstreben) und „tricky“ (versuchen, den Verifier irrezuführen) abzuwechseln. Das Verifier-Modell, das sich der Absichten des Provers nicht bewusst war, bewertete die Antworten ausschließlich basierend auf seinem Training.
Nach jeder Spielrunde wurden beide Modelle basierend auf ihren vorherigen Leistungen neu trainiert, um ihre Fähigkeit zur Beurteilung der Richtigkeit und zur Erklärung von Lösungen zu verbessern. Menschliche Vertragspartner wurden beauftragt, die Lesbarkeit der Antworten des Prover-Modells zu bewerten.
Nach mehreren Runden bemerkten die Forscher, dass das Verifier-Modell seine Widerstandsfähigkeit gegen die Überredungstechniken des „tricky“ Provers verbesserte, während das Prover-Modell effektiver bei der Erklärung seiner Überlegungen wurde. Die Studie stellt fest: „Tricky Lösungen, die für kleinere Verifier schwerer zu erkennen sind, sind auch für Menschen herausfordernder, während hilfreiche Lösungen, die für kleinere Verifier lesbarer sind, auch für Menschen verständlicher sind.“
Der aus diesen Experimenten resultierende Algorithmus optimiert LLMs sowohl für Richtigkeit als auch für Klarheit. OpenAI ist überzeugt, dass dies die Entwicklung von KI-Systemen erleichtert, die nicht nur korrekte, sondern auch transparente Ergebnisse liefern, wodurch Sicherheit und Vertrauen in reale Anwendungen gestärkt werden.
Wie Chen hervorhob, hat diese Methode das Potenzial, fortgeschrittene KI-Systeme stärker mit menschlichen Evaluatoren in Einklang zu bringen, ein wichtiger Schritt, während Modelle sich annähern oder über menschliche Intelligenz hinausgehen. Kirchner fügte hinzu: „Zu diesem Zeitpunkt könnte es für Menschen zunehmend schwierig werden, die Genauigkeit KI-generierter Inhalte zuverlässig zu beurteilen.“