Google Research: Warum Sprachmodelle Schwierigkeiten haben, ihre Denkfähigkeiten selbst zu korrigieren

Große Sprachmodelle (LLMs) sind maßgeblich von der Qualität und dem Umfang der Daten abhängig, die für ihr Training verwendet werden. Forscher haben lange nach effektiven Methoden gesucht, um diesen Modellen zu ermöglichen, Ungenauigkeiten während der Ausgabeerstellung selbst zu korrigieren. Frühe Initiativen, wie der Multi-Agenten-Ansatz, der am MIT entwickelt wurde, zeigten vielversprechende Ergebnisse in diesem Bereich. Neueste Erkenntnisse von Google DeepMind deuten jedoch darauf hin, dass LLMs tatsächlich Leistungsabfälle erleben können, wenn sie versuchen, eigenständig Selbstkorrekturen vorzunehmen.

In ihrem Paper mit dem Titel "Große Sprachmodelle können noch keine Selbstkorrekturen beim Denken durchführen" haben Forscher von Google DeepMind umfangreiche Experimente durchgeführt, um die Grenzen der Selbstkorrekturfähigkeiten von LLMs zu klären. Ihre Analyse hob eine bedeutende Herausforderung hervor: Wenn diese Modelle versuchen, ihre Fehler ausschließlich basierend auf internen Einschätzungen ohne externe Anleitung zu beheben, stoßen sie auf Schwierigkeiten. Dies stellt einen bemerkenswerten Wandel dar, da frühere Forschungen darauf hindeuteten, dass intrinsische Selbstkorrekturen effektiv sein könnten, wenn sie von sogenannten „Orakeln“ – im Grunde vorab festgelegten korrekten Kennzeichnungen – unterstützt werden. Ohne diese Orakel verbessert sich die Genauigkeit der Modelle nicht.

Das Team wies darauf hin, dass LLMs über Selbstkorrekturfähigkeiten verfügen müssen, da externes Feedback in vielen realen Anwendungen „nicht verfügbar“ ist.

Herausforderungen der Selbstkorrektur

Halluzinationen, das heißt falsche Ausgaben, die von LLMs generiert werden, stellen eine der zahlreichen Herausforderungen dar, mit denen diese Modelle konfrontiert sind. Obwohl kein System frei von solchen Ungenauigkeiten ist, gibt es Minderungsstrategien – wie die von Gorilla vorgeschlagene AST-Baum-Methode und einen Multiagentenansatz, der von MIT-Forschern untersucht wird.

Stellen Sie sich ein Szenario vor, in dem ein auf LLM basierender Kundenservice-Chatbot erkennt, dass er eine falsche Antwort gegeben hat und den Fehler autonom korrigiert. Die KI-Forschungsgemeinschaft konzentriert sich zunehmend darauf, dieses Szenario Realität werden zu lassen. Die Google-Forscher haben dieses Ziel in Betracht gezogen, bemerkten jedoch, dass viele Verbesserungen, die der Selbstkorrektur zugeschrieben werden, vermutlich das Ergebnis schlecht gestalteter ursprünglicher Aufforderungen sind, die durch gut gestaltetes Feedback in den Schatten gestellt werden. „In solchen Fällen“, erklärten sie, „könnte die Integration des Feedbacks in die ursprüngliche Anleitung oder die Verfeinerung des ursprünglichen Prompts bessere Ergebnisse und niedrigere Kosten erzielen.“

Diese Anpassung erfüllt jedoch nicht das Ziel, LLMs zu ermöglichen, vollständig eigenständig Selbstkorrekturen vorzunehmen. So kann beispielsweise die Aufforderung an ein Modell, „Überprüfen Sie Ihre vorherige Antwort und identifizieren Sie Fehler“, zu falschen Ergebnissen führen, selbst wenn die ursprüngliche Antwort korrekt war.

Konsistenz in den Ausgaben untersuchen

Die Forschung umfasste verschiedene Modelle, darunter OpenAIs ChatGPT, in Benchmark-Tests, bei denen sie mit der Code-Generierung beauftragt wurden. Darauffolgende agentenbasierte Systeme überprüften diese Antworten auf Fehler, um Selbstkorrekturen zu ermöglichen. Dieser Prozess zeigte, dass, obwohl kein einzelnes KI-Modell konsistent identische Ausgaben produzierte, mehrere LLMs gemeinsam Übereinstimmung bei einer konsistenten Antwort erreichen konnten.

Die Forschung betont das Konzept der Selbstkonsistenz und argumentiert, dass die beobachteten Verbesserungen nicht aus der Selbstkorrektur, sondern aus einer erhöhten Konsistenz der Modelloutputs resultieren. Der Unterschied liegt darin, ob der Abstimmungsmechanismus auf modellgesteuerten Einsichten oder einfachen Zählungen von Antworten basiert. Daher ist es wichtig, die Auswahl-Effekte, die durch die Generierung mehrerer Ausgaben entstehen, auszuschließen, um etwas als Selbstkorrektur zu klassifizieren.

Der Weg zur effektiven Selbstkorrektur

Die Frage bleibt: Wann wird echte Selbstkorrektur bei LLMs realisierbar? Google DeepMind schlägt vor, dass selbstkorrektive Fähigkeiten insbesondere in Anwendungen von Vorteil sein könnten, die sicherere Antwortgenerierung erfordern. Die Studie verweist auf Modelle, die Ground-Truth-Labels integrieren, wie das „Constitutional AI“-System von Claude, das LLMs dabei helfen könnte, inkorrekte Antworten im Denkprozess zu vermeiden.

Derzeit sind LLMs nicht in der Lage, ihre Denkweise unabhängig ohne externes Input selbst zu korrigieren. Die Forscher äußern, dass es zu optimistisch sei, anzunehmen, dass diese Modelle letztendlich autonome Selbstkorrekturfähigkeiten entwickeln werden. Stattdessen plädieren sie für Verbesserungen der aktuellen Modelle, um sie besser auf zukünftige Selbstkorrekturen vorzubereiten.

Um dieses wichtige Feld voranzubringen, rufen sie die Forscher dazu auf, einen differenzierten Blick auf die Selbstkorrektur einzunehmen – zu erkennen, was möglich ist, während sie gleichzeitig die Grenzen verstehen. Dieser ausgewogene Ansatz wird LLMs besser positionieren, um ihre Genauigkeit und Zuverlässigkeit zu verbessern und ihre Evolution zu präzisen und vertrauenswürdigen Werkzeugen in verschiedenen Anwendungen zu leiten.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles