Les nouveaux modèles de langage de grande taille (LLM) comme ChatGPT d'OpenAI (en particulier GPT-4), Claude AI et Gemini ont montré des capacités décisionnelles limitées. Cet article explore les recherches récentes sur la prise de décision des LLM et ses implications pour leur avenir.
Traditionnellement, une prise de décision efficace par les LLM nécessite la reconnaissance de schémas ou de règles sous-jacents, qu'ils appliquent de manière flexible à de nouveaux scénarios. Une étude de l'Institut de Santa Fe a révélé que les LLM, y compris ChatGPT, ont du mal à "raisonner sur des concepts fondamentaux." Prendre des décisions judicieuses nécessite une compréhension approfondie du contexte du prompt et des conséquences potentielles des réponses.
Une mauvaise prise de décision par les LLM peut entraîner des résultats néfastes. Par exemple, en 2023, l'Association nationale des troubles alimentaires a suspendu son chatbot IA "Tessa" après qu'il a commencé à fournir des conseils nuisibles, comme suggérer des pesées hebdomadaires et un déficit calorique de 500 à 1 000 calories. La réaction du public a entraîné une désactivation rapide du chatbot.
Les LLM ont également tendance à générer des recommandations génériques. Une recherche d'INSEAD a montré que, face à des questions de stratégie d'entreprise, ChatGPT recourait souvent à des idées reçues, comme promouvoir le travail collaboratif et une culture de l'innovation. Toutefois, la stratégie d'entreprise est un processus complexe qui nécessite des insights sur mesure plutôt que des conseils génériques.
Un argument contre cela est que former les LLM spécifiquement pour des stratégies d'affaires ou des conseils en santé pourrait résoudre ces problèmes. Cependant, améliorer leur compréhension contextuelle ne peut pas se limiter à élargir leurs ensembles de données. Ajouter plus de données peut introduire des biais et augmenter la demande computationnelle sans améliorer la qualité des décisions.
Favoriser une Prise de Décision Contextuelle
La formation des LLM à une prise de décision adéquate au contexte nécessite une approche nuancée. Deux stratégies avancées dans la recherche actuelle en apprentissage automatique proposent des moyens d'améliorer la prise de décision des LLM pour qu'elle ressemble aux processus cognitifs humains. La première, AutoGPT, utilise un mécanisme auto-réflexif pour planifier et valider les sorties. La seconde, Tree of Thoughts (ToT), encourage une prise de décision efficace en s'éloignant du raisonnement linéaire traditionnel.
AutoGPT est conçu pour créer, évaluer et affiner des modèles de manière autonome afin d'atteindre des objectifs spécifiques. Des améliorations récentes à AutoGPT intègrent une stratégie d'« opinions supplémentaires », incorporant des modèles d'experts dans le processus décisionnel. Cette intégration permet aux LLM d'utiliser des informations pertinentes provenant de diverses analyses d'experts, améliorant ainsi les résultats grâce à une approche systématique de "pensée-raisonnement-plan-critique".
Si elle est mise en œuvre efficacement, AutoGPT, renforcé par des modèles d'experts, pourrait traiter plus d'informations que les humains, suggérant qu'il pourrait prendre des décisions plus éclairées. Cependant, une limitation d'AutoGPT est sa fenêtre contextuelle restreinte, pouvant mener à des boucles d'interaction infinies. Fournir toutes les informations pertinentes dès le départ donne souvent de meilleurs résultats que d'introduire progressivement des données au cours d'une conversation.
Simuler la Cognition Humaine avec Tree of Thoughts
Le cadre Tree of Thoughts (ToT) offre une méthode prometteuse pour améliorer la précision des LLM en imitant les processus cognitifs humains. La prise de décision humaine implique souvent de générer et d'évaluer plusieurs scénarios. ToT identifie les défauts de raisonnement linéaire dans les LLM, similaire à l'approche d'AutoGPT. Dans des expériences, ToT mesure la capacité des LLM à suivre des instructions en langage naturel pour accomplir des tâches telles que des énigmes et de l'écriture créative.
Le raisonnement linéaire traditionnel dans les LLM est représenté par la "Chaîne de Pensée", qui décrit un processus de prise de décision séquentiel. Toutefois, ToT cherche à améliorer les capacités d’auto-critique des LLM et à explorer diverses voies de raisonnement. Par exemple, dans le jeu des 24, la Chaîne de Pensée peinait à identifier différentes opérations mathématiques pour atteindre 24, entraînant un faible taux de précision. La capacité de ToT à évaluer plusieurs résultats a conduit à un taux de précision de 74 % dans la même tâche.
Si les LLM peuvent améliorer leur jugement de manière cohérente, les futures collaborations entre humains et IA pour la prise de décisions stratégiques pourraient devenir une réalité. Les applications de ToT s'étendent à la programmation, à l'analyse de données et à la robotique, tandis qu'AutoGPT aspire à une intelligence générale.
À mesure que la recherche académique évolue, de nouvelles stratégies pour améliorer la prise de décision cognitive chez les LLM émergent. Étant donné leur capacité inhérente à analyser efficacement d'énormes volumes de données, des avancées réussies pourraient permettre aux LLM d’égaler, voire de dépasser, les capacités décisionnelles humaines dans les années à venir.