Dans une étude récente, des chercheurs de Meta, de l'École des Ponts ParisTech et de l'Université Paris-Saclay proposent une nouvelle approche pour améliorer la précision et la rapidité des modèles de langage à grande échelle (LLMs) en leur permettant de prédire plusieurs tokens simultanément. Cette innovation remet en question le modèle auto-régressif traditionnel, qui prédit un token à la fois.
Les Avantages de la Prédiction Multi-Token
Bien que la prédiction multi-token ne convienne pas à tous les LLMs ou tâches linguistiques, elle offre des avantages significatifs dans des scénarios spécifiques, notamment en accélérant les tâches génératives jusqu'à trois fois plus vite que les méthodes conventionnelles. Bien qu'il reste un potentiel d'amélioration, cette technique pourrait s'avérer être un outil puissant dans certaines applications de LLM.
Défis de la Prédiction du Prochain Token
La méthode traditionnelle d'entraînement des LLMs est appelée "prédiction du prochain token." Cette technique d'apprentissage auto-supervisé consiste à présenter au modèle une séquence de tokens, l'incitant à prédire le token suivant, qui est ensuite ajouté à l'entrée pour d'autres prédictions. Ce processus itératif, appliqué à de vastes corpus textuels, permet au modèle d'apprendre à générer un texte cohérent. Toutefois, des chercheurs ont identifié des limites à cette approche, en ce qui concerne le développement des compétences en traitement du langage, en acquisition de connaissances et en raisonnement. En se concentrant uniquement sur un token à la fois, les modèles risquent de devenir excessivement sensibles à des motifs locaux et de négliger un raisonnement nécessitant un contexte plus large. De plus, la prédiction du prochain token exige d'immenses ensembles de données pour atteindre des niveaux de fluidité que les humains réussissent avec moins de texte. La récente étude de Meta postule que "former des modèles de langage à prédire plusieurs tokens futurs simultanément améliore l'efficacité de l'échantillonnage."
Explorer la Prédiction Multi-Token
Au contraire, la prédiction multi-token oriente le LLM à prédire plusieurs tokens futurs à chaque position des données d'entraînement en même temps. Les chercheurs introduisent une architecture de prédiction multi-token simple, sans exiger de temps ou de mémoire d'entraînement supplémentaires. Ce modèle repose sur l'architecture Transformer, fondamentale pour la plupart des LLMs, mais avec des modifications. Au lieu de générer une sortie unique, il comporte plusieurs têtes de sortie indépendantes pour chaque prédiction de token.
Mise en Œuvre de la Prédiction Multi-Token
Pendant l'inférence, le modèle utilise la méthode traditionnelle de prédiction du prochain token pour chaque tête de sortie, exploitant les têtes supplémentaires pour simplifier le processus de décodage. Le cadre s'appuie sur des travaux antérieurs dans le domaine. "Bien qu'économique et simple, la prédiction multi-token améliore considérablement l'entraînement de modèles Transformer plus rapides et plus puissants," affirment les chercheurs.
Résultats et Observations
L'équipe a testé sa stratégie de prédiction multi-token avec des modèles allant de 300 millions à 13 milliards de paramètres. Leurs résultats révèlent des tendances notables : les modèles plus petits montrent un bénéfice limité de la prédiction multi-token, celle-ci devenant de plus en plus efficace à mesure que la taille du modèle augmente. Par exemple, les modèles entraînés pour des prédictions de 4 tokens ont présenté des améliorations de performance marquées par rapport aux prédictions de token unique sur le benchmark de codage MBPP. Les chercheurs concluent : "Il est possible, en utilisant les mêmes ressources de calcul, d'obtenir de meilleures performances des modèles de langage à grande échelle grâce à la prédiction multi-token." De plus, la prédiction multi-token accroît les vitesses d'inférence, rendant les modèles jusqu'à trois fois plus rapides. "Le pré-entraînement avec la prédiction multi-token améliore la précision des têtes supplémentaires par rapport à un simple affinement d'un modèle de prédiction du prochain token, débloquant ainsi le potentiel du décodage auto-spéculatif," expliquent-ils.
L'étude souligne également que la prédiction multi-token incite le modèle à apprendre des motifs à long terme, en particulier dans les expériences avec la "tokenisation au niveau byte", où chaque byte est traité comme un token unique. Dans ces cas, la prédiction multi-byte a surpassé de manière significative les modèles de base à byte unique, ce qui est crucial pour les applications sans vocabulaire prédéfini.
Orientations Futures de la Recherche
Malgré ses avantages, la prédiction multi-token présente des défis. Déterminer le nombre optimal de tokens à prédire varie selon la tâche et la taille du modèle. Les chercheurs explorent des pistes de recherche futures, y compris des techniques automatisées pour identifier le meilleur nombre de tokens à prédire et les dynamiques entre la taille du vocabulaire et les stratégies multi-token. Cette recherche promet des applications en entreprise, offrant potentiellement des vitesses d'inférence améliorées et une précision accrue pour des tâches génératives telles que l'achèvement de code, sans modifications majeures de l'architecture existante des LLMs, assurant ainsi une compatibilité avec d'autres techniques d'optimisation au sein du cadre Transformer.