Dans le but d'améliorer les capacités de raisonnement des grands modèles de langage (LLM), des chercheurs de Google DeepMind et de l'Université de Californie du Sud ont introduit un cadre de "self-discover" révolutionnaire pour le prompting. Publiée sur arXiv et Hugging Face, cette approche innovante dépasse les techniques de prompting existantes et a démontré des améliorations de performance pour divers modèles, y compris le GPT-4 d'OpenAI et le PaLM 2 de Google.
Le cadre "self-discover" permet aux LLM d'identifier de manière autonome les structures de raisonnement spécifiques aux tâches afin de résoudre efficacement des problèmes. En analysant plusieurs modules de raisonnement atomiques, tels que la pensée critique et le raisonnement pas à pas, les modèles peuvent construire un cadre de raisonnement explicite à suivre durant la résolution des problèmes.
Un des aspects les plus convaincants de cette approche est son efficacité, nécessitant de 10 à 40 fois moins de puissance de calcul, ce qui la rend particulièrement avantageuse pour les entreprises.
Évolution du Raisonnement des LLM
Les LLM ont mûri pour traiter une variété de tâches, grâce à leur capacité à interpréter des instructions, à raisonner et à générer des réponses cohérentes. Utilisant l'architecture des transformateurs, ces modèles emploient différentes stratégies de prompting inspirées des théories cognitives sur le raisonnement humain et la résolution de problèmes. Cela inclut le prompting de chaîne de pensée en few-shot et zero-shot, la décomposition des tâches en sous-problèmes, et le prompting réflexif pour élaborer des principes généraux.
Bien que ces méthodes, notamment la chaîne de pensée, soient efficaces, elles reposent souvent sur des hypothèses implicites quant à la façon d'aborder une tâche. Les chercheurs soutiennent que cela peut ne pas être optimal, chaque tâche ayant une structure intrinsèque unique pouvant bénéficier d'une technique adaptée.
Avec leurs dernières recherches, l'équipe de DeepMind et de l'USC propose un cadre de prompting global qui identifie de manière autonome la structure sous-jacente pour sélectionner la stratégie de raisonnement la plus appropriée tout en optimisant l'efficacité.
Gains de Performance Remarquables
Pour évaluer l'efficacité du nouveau cadre, les chercheurs l'ont testé sur plusieurs modèles, y compris GPT-4 et PaLM 2-L, à travers 25 tâches de raisonnement, comme BigBench-Hard et MATH. Le cadre "self-discover" a surpassé la méthode de chaîne de pensée dans 21 des 25 tâches, atteignant des gains de performance allant jusqu'à 32 % et améliorant significativement l'efficacité en nécessitant de 10 à 40 fois moins de calcul en inférence.
Selon les résultats, quand il a été testé avec GPT-4, la méthode "self-discover" a atteint des précisions de 81 %, 85 % et 73 % sur les tâches Big-Bench Hard, Thinking for Doing, et MATH respectivement. En revanche, la méthode de chaîne de pensée a donné des précisions inférieures de 75 %, 52 %, et 71 %. Un écart de performance similaire a été noté par rapport à l'approche plan-and-solve.
Pour PaLM 2-L, les précisions atteintes étaient de 67 %, 69 % et 50,5 % sur les trois tâches, surpassant la chaîne de pensée (60 %, 40 %, et 42 %) et l'approche plan-and-solve (61 %, 42 %, et 49 %).
Avancer les Capacités de Raisonnement de l’IA
Le cadre de prompting "self-discover" a le potentiel de révolutionner la façon dont les LLM abordent la résolution de problèmes, les rapprochant de l'intelligence générale. Des études sur la transférabilité indiquent que les structures de raisonnement composées sont largement applicables à différents types de modèles et partagent des caractéristiques avec le raisonnement humain.
“En regardant vers l'avenir, nous sommes impatients de continuer à explorer le raisonnement structuré dans les LLM pour avancer les capacités de résolution de problèmes et découvrir de nouvelles voies pour la collaboration Homme-IA,” a conclu l'équipe.