Aufkommende große Sprachmodelle (LLMs) wie OpenAIs ChatGPT (insbesondere GPT-4), Claude AI und Gemini zeigen begrenzte Entscheidungsfähigkeiten. Dieser Artikel beleuchtet aktuelle Forschungen zur Entscheidungsfindung von LLMs und deren zukünftige Auswirkungen.
Traditionell erfordert effektive Entscheidungsfindung bei LLMs das Erkennen zugrunde liegender Muster oder Regeln, die flexibel auf neue Szenarien angewendet werden. Eine Studie des Santa Fe Instituts ergab, dass LLMs, einschließlich ChatGPT, Schwierigkeiten haben, „über grundlegende Kernkonzepte nachzudenken“. Fundierte Entscheidungen setzen ein tiefes Verständnis des Kontextes der Eingabe und der potenziellen Konsequenzen des Outputs voraus.
Schlechte Entscheidungsfindung bei LLMs kann zu schädlichen Ergebnissen führen. Ein Beispiel ist die National Eating Disorder Association, die 2023 ihren KI-Chatbot „Tessa“ suspendierte, nachdem dieser schädliche Ratschläge gab, wie wöchentliche Gewichtskontrollen und ein Kaloriendefizit von 500 bis 1.000 Kalorien. Der Widerstand führte zur zügigen Deaktivierung des Chatbots.
LLMs neigen auch dazu, allgemeine Empfehlungen zu generieren. Forschungsarbeiten von INSEAD haben gezeigt, dass ChatGPT bei Fragen zur Unternehmensstrategie häufig auf konventionelle Weisheiten zurückgriff, wie die Förderung von Teamarbeit und einer Innovationskultur. Unternehmensstrategie ist jedoch ein komplexer Prozess, der maßgeschneiderte Einsichten statt allgemeiner Ratschläge erfordert.
Ein potenzielles Gegenargument ist, dass eine gezielte Schulung von LLMs speziell für Unternehmensstrategien oder Gesundheitsberatung diese Probleme lösen könnte. Allerdings lässt sich die Verbesserung des kontextuellen Verständnisses nicht allein durch die Erweiterung der Datensätze erreichen. Das bloße Hinzufügen weiterer Daten kann Verzerrungen einführen und den Rechenaufwand erhöhen, ohne die Qualität der Entscheidungsfindung zu verbessern.
Ermöglichung kontextgerechter Entscheidungsfindung
Die Schulung von LLMs für kontextgerechte Entscheidungen erfordert einen differenzierten Ansatz. Zwei fortschrittliche Strategien aus der aktuellen Machine-Learning-Forschung bieten Wege zur Verbesserung der Entscheidungsfindung von LLMs, sodass sie menschenähnlichen kognitiven Prozessen ähnlicher werden. Die erste, AutoGPT, nutzt einen selbstreflexiven Mechanismus zur Planung und Validierung von Ausgaben. Die zweite, Tree of Thoughts (ToT), fördert effektive Entscheidungsfindung, indem sie sich von traditioneller linearer Logik löst.
AutoGPT ist darauf ausgelegt, autonom Modelle zu erstellen, zu bewerten und zu verfeinern, um spezifische Ziele zu erreichen. Neueste Verbesserungen bei AutoGPT beinhalten eine Strategie für „zusätzliche Meinungen“, die Expertenmodelle in den Entscheidungsprozess integriert. Diese Integration ermöglicht es LLMs, relevante Informationen aus verschiedenen Expertenanalysen zu nutzen und somit die Entscheidungsqualität durch einen systematischen Ansatz von „Denken-Überlegen-Planen-Kritisieren“ zu verbessern.
Wenn LLMs mit Expertenmodellen effektiv implementiert werden, könnten sie mehr Informationen verarbeiten als Menschen und somit informiertere Entscheidungen treffen. Eine Einschränkung von AutoGPT ist jedoch das begrenzte Kontextfenster, das zu unendlichen Interaktionsschleifen führen kann. Die Bereitstellung aller relevanten Informationen im Voraus führt oft zu besseren Ergebnissen im Vergleich zu einer schrittweisen Datenintegration während eines Gesprächs.
Simulation menschlicher Kognition mit Tree of Thoughts
Der Tree of Thoughts (ToT)-Rahmen bietet eine weitere vielversprechende Methode zur Verbesserung der Genauigkeit von LLMs, indem menschliche kognitive Prozesse nachgeahmt werden. Menschliche Entscheidungsfindung umfasst oft die Generierung und Bewertung mehrerer Szenarien. ToT identifiziert lineare Denkfehler in LLMs, ähnlich dem Ansatz von AutoGPT. In Experimenten misst ToT die Fähigkeiten von LLMs, natürliche Sprachbefehle bei Aufgaben wie Rätseln und kreativem Schreiben zu befolgen.
Traditionelles lineares Denken in LLMs wird durch „Chain of Thought“ dargestellt, welches einen sequenziellen Entscheidungsprozess beschreibt. ToT hingegen zielt darauf ab, die Selbstkritik von LLMs zu stärken und verschiedene Denkwege zu erkunden. Zum Beispiel hatte Chain of Thought im Spiel „Game of 24“ Schwierigkeiten, verschiedene mathematische Operationen zu identifizieren, um 24 zu erreichen, was zu einer niedrigen Genauigkeitsrate führte. ToTs Fähigkeit, mehrere Ergebnisse zu bewerten, führte hingegen zu einer Genauigkeit von 74 % bei der gleichen Aufgabe.
Wenn LLMs ihr Urteilsvermögen kontinuierlich verbessern können, könnte eine zukünftige Zusammenarbeit zwischen Menschen und KI bei strategischen Entscheidungen Realität werden. Die Anwendungsbereiche von ToT erstrecken sich auf Programmierung, Datenanalyse und Robotik, während AutoGPT auf allgemeine Intelligenz abzielt.
Mit der Weiterentwicklung der akademischen Forschung entstehen innovative Strategien zur Verbesserung der kognitiven Entscheidungsfindung in LLMs. Angesichts ihrer inhärenten Fähigkeit, große Datenmengen effizient zu analysieren, könnten erfolgreiche Fortschritte es LLMs ermöglichen, innerhalb der nächsten Jahre die Entscheidungsfähigkeiten von Menschen zu erreichen oder sogar zu übertreffen.