Tout comme les gens épanouis bénéficient de la reconnaissance positive, l'IA peut également tirer parti de conseils imitant les interactions humaines. Les chercheurs de Google DeepMind ont présenté une approche transformative qui améliore considérablement les capacités mathématiques des modèles linguistiques grâce à des incitations imitant la communication humaine quotidienne. Cette méthode innovante, détaillée dans leur article "Large Language Models as Optimizers," est connue sous le nom d'Optimisation par PROmpting (OPRO).
OPRO utilise le langage naturel pour guider les grands modèles linguistiques, tels que ChatGPT d'OpenAI, dans la résolution de problèmes complexes. Alors que l'apprentissage machine traditionnel repose sur des processus mathématiques formels pour améliorer les performances, OPRO privilégie un langage conversationnel et accessible. En interprétant la description d'un problème avec les réponses précédentes, le modèle linguistique génère des solutions potentielles.
Tinglong Dai, professeur de gestion des opérations et d'analyse commerciale à l'Université Johns Hopkins, explique : « Les LLMs sont formés sur du contenu généré par l'homme, et leur fonctionnement de manière générale consiste à compléter vos phrases comme le ferait un bon partenaire. Il n'est donc pas surprenant que des incitations humaines mènent à de bons résultats. » Cela souligne l'impact significatif de la formulation des incitations sur les résultats de l'IA.
L'étude de DeepMind a révélé que certaines expressions influençaient notablement les performances des modèles. Par exemple, des incitations telles que "pensons étape par étape" ont conduit à une meilleure précision dans la résolution de problèmes mathématiques lors de tests sur des ensembles de données. La phrase "Prenez une grande respiration et travaillez sur ce problème étape par étape" a donné les meilleurs résultats avec le modèle PaLM 2 de Google, atteignant un taux de précision de 80,2 % lors de l'évaluation sur GSM8K, un ensemble de problèmes mathématiques pour l'école primaire. En comparaison, PaLM 2, sans incitation spécifique, n'a obtenu que 34 %, tandis que l'incitation classique "Pensons étape par étape" a atteint 71,8 %.
Michael Kearns, professeur d'informatique et de science de l'information à l’Université de Pennsylvanie, note que les LLMs excellent à modifier leurs réponses en fonction des incitations humaines grâce à leur formation sur des données conversationnelles, y compris des publications Reddit et des scripts de films. Il souligne l'importance d'inciter les LLMs à décomposer les problèmes mathématiques ou logiques en étapes gérables, soutenu par une formation sur des données comprenant des démonstrations mathématiques et un raisonnement formel.
Chengrun Yang, co-auteur de l'article de DeepMind, explique que la plupart des LLMs ont été formés à l'aide de vastes ensembles de données, leur conférant de solides capacités en traitement du langage naturel, y compris la paraphrase et l'enrichissement des phrases. Des efforts continus en matière d'alignement des modèles améliorent également la capacité des LLMs à comprendre et à répondre efficacement aux incitations humaines.
Selon Olga Beregovaya, vice-présidente de l'IA et de la traduction automatique chez Smartling, les incitations humaines prennent souvent la forme de demandes guidant l'IA vers une interaction plus orientée vers le dialogue. « Les LLMs fonctionnent mieux lorsqu'on leur donne plus de contexte, » ajoute-t-elle. Des incitations détaillées permettent au modèle d'aligner ses réponses plus étroitement avec le contexte spécifique présenté.
Fait intéressant, des mots simples d'encouragement peuvent également améliorer la performance de l'IA. Dai souligne que les LLMs peuvent donner de meilleurs résultats lorsque les utilisateurs les motivent, par exemple, en disant : « Allez, tu peux faire mieux que ça ! » Des exemples tels que demander aux LLMs de jouer le rôle d'un économiste lauréat du prix Nobel peuvent susciter des discussions plus approfondies sur des sujets complexes comme l'inflation. De même, dans des scénarios de diagnostic médical, inciter les LLMs à adopter la personnalité d'un expert médical reconnu peut produire des résultats plus précis et ciblés. Cependant, il précise que bien que ces encouragements de style humain soient efficaces, ils ne garantissent pas des améliorations universelles sur toutes les tâches.
Il est également important de noter que les LLMs ont le potentiel de bien répondre à des incitations non humaines adaptées à des tâches spécifiques. Dai mentionne que des incitations structurées et codées peuvent donner des résultats efficaces, contrastant avec les approches conversationnelles traditionnelles.
La méthode OPRO pourrait simplifier le processus de création d'incitations pour l'IA, permettant aux utilisateurs d'optimiser leurs requêtes en fonction de divers critères tels que la précision de résolution des problèmes en mathématiques, les taux de déclenchement d'outils et la créativité dans la génération de texte. Yang espère que cette méthode inspirera de nouvelles applications permettant d'utiliser les LLMs pour améliorer un plus large éventail de tâches, ouvrant la voie à des solutions d'IA plus interactives et efficaces.