Ces dernières années, les grands modèles de langage (LLM) ont évolué, passant de quelques centaines de mots à la gestion de contenus équivalant à plusieurs livres en simultané. Cette capacité accrue d'entrée, connue sous le nom de « fenêtre de contexte », ouvre la voie à de nouvelles applications et cas d'utilisation qui nécessitaient auparavant des efforts d'ingénierie considérables.
Une étude récente menée par des chercheurs de Google DeepMind explore les capacités d'apprentissage in-context à nombreux exemples (ICL) des LLM avec des fenêtres de contexte étendues. Les résultats montrent qu'en incluant des centaines, voire des milliers d'exemples d'entraînement dans une seule invite, les performances du modèle peuvent être considérablement améliorées ; auparavant, de telles améliorations nécessitaient un affinage.
Few-shot vs. Many-shot ICL
L'ICL permet aux LLM d'apprendre de nouvelles tâches grâce à des exemples présentés lors de l'inférence. Il s'agit de fournir au modèle une invite contenant plusieurs exemples résolus ainsi que le problème à traiter. Traditionnellement, ce type d'apprentissage était désigné par le terme « few-shot learning ». Contrairement à l'affinage, qui ajuste les paramètres du modèle, l'ICL est convivial et plus accessible ; cependant, il a été limité par la fenêtre de contexte du modèle. Par exemple, GPT-3 supportait une fenêtre contextuelle d'environ 2 000 tokens, restreignant le nombre d'exemples pouvant tenir dans une invite.
Actuellement, certains modèles peuvent gérer plus de 100 000 tokens, et des modèles comme Gemini 1.5 Pro peuvent traiter plus d'un million de tokens, ce qui permet des centaines ou des milliers d'exemples dans chaque invite. Dans leur étude, les chercheurs de DeepMind ont examiné l'impact de l'ICL à nombreux exemples sur les performances des LLM dans diverses tâches, y compris la résolution de problèmes mathématiques, le question-réponse, la modélisation des récompenses, la traduction de langues peu dotées, la planification et l'analyse de sentiment. Certaines invites contenaient jusqu'à 8 192 exemples d'ICL, et les résultats ont montré que les performances s'amélioraient avec l'ajout de plus d'exemples. Lors des tâches de traduction, l'ICL à long terme sur Gemini Pro a atteint des résultats exceptionnels en kurde et en tamoul. Dans les tâches de résumé, les performances à nombreux exemples ont égalé celles de modèles spécialisés et ajustés, atteignant une efficacité optimale seulement lorsque les exemples in-context s'étendaient à des centaines de milliers de tokens.
ICL Renforcé et Non Supervisé
Un défi majeur de l'ICL à nombreux exemples est le besoin de volumes importants d'exemples de haute qualité générés par l'homme, notamment pour les tâches de raisonnement. Les chercheurs proposent deux stratégies pour atténuer cette dépendance aux données humaines.
La première technique, l'« ICL renforcé », remplace les exemples créés par des humains par des justifications générées par le modèle. Le LLM crée plusieurs justifications pour un problème donné à l'aide d'une invite de raisonnement à few-shot ou zero-shot. Une fois validées par des mécanismes confirmant les bonnes réponses, ces réponses forment un ensemble de données ICL composé de paires problème/justification.
La deuxième méthode, l'« ICL non supervisé », exploite la connaissance innée du modèle sur le problème. Cette approche utilise une invite contenant une liste de problèmes non résolus avec une invite zero-shot ou few-shot pour un problème cible, éliminant la nécessité de réponses générées par l'homme. Les chercheurs avancent que lorsque le LLM possède les connaissances nécessaires pour résoudre une tâche, fournir un contexte pertinent l'aide à se concentrer sur les concepts internes nécessaires à la résolution de problèmes. Ils confirment que les justifications générées par le modèle et les invites de problèmes uniquement peuvent réduire la dépendance à des exemples générés par l'homme.
Adaptation du Comportement du Modèle
L'étude a également révélé que l'ICL à nombreux exemples peut surmonter les biais d'entraînement et apprendre efficacement des tâches de prédiction non linguistique naturelles là où l'ICL à few-shot pourrait rencontrer des difficultés. Par exemple, les chercheurs ont modifié les étiquettes d'un ensemble de données d'analyse de sentiment pour contredire les biais sentimentaux acquis par le LLM au cours de l'entraînement, et leurs expérimentations ont montré qu'avec l'ajout de plus d'exemples d'ICL, les performances s'amélioraient de manière spectaculaire, approchant celles des étiquettes par défaut.
De plus, l'ICL à nombreux exemples a été utilisé avec succès pour reconfigurer le modèle pour la classification linéaire et la parité séquentielle, des tâches généralement délicates sans formation ciblée. Cela met en évidence le potentiel de l'apprentissage à nombreux exemples pour s'adapter à de nouvelles tâches et domaines qui peuvent ne pas correspondre aux données d'entraînement d'un LLM.
Implications pour les Entreprises
Alors que les laboratoires d'IA s'efforcent d'étendre les fenêtres de contexte des LLM, certains experts soutiennent que l'affinage et d'autres techniques, telles que la génération augmentée par récupération (RAG), pourraient ne plus être nécessaires. Les entreprises pourraient simplement concevoir des invites contenant des informations pertinentes, des exemples et des instructions de tâche.
Cependant, l'ICL à nombreux exemples n'est actuellement pas évolutif. Pour les applications LLM recevant des dizaines de millions de demandes par jour, étendre chaque invite par quelques centaines d'exemples pourrait avoir un impact significatif sur la rapidité et les coûts d'inférence.
Ainsi, l'ICL à nombreux exemples peut servir d'outil précieux durant les phases exploratoires et de prototypage des applications LLM, permettant aux développeurs d'expérimenter diverses techniques d'ingénierie des invites sans les contraintes de la fenêtre de contexte. Néanmoins, l'évolutivité efficace des produits dépendra de la minimisation de la consommation de tokens et de l'utilisation de modèles plus petits, plus rapides et moins coûteux.