Un nouveau modèle d'apprentissage automatique développé par des chercheurs de Meta et de l'Université de Californie du Sud répond à des défis clés liés à l'architecture Transformer, qui a joué un rôle essentiel dans l'avancement des modèles de langage de grande taille (LLMs). Ce modèle, nommé Megalodon, étend considérablement la fenêtre contextuelle à des millions de tokens tout en minimisant l'utilisation de la mémoire. Les expériences montrent que Megalodon surpasse les modèles Transformer comparables dans le traitement de textes volumineux, le positionnant comme un successeur potentiel à l'architecture Transformer.
Comprendre les fenêtres contextuelles
La "fenêtre contextuelle" désigne le nombre de tokens qu'un modèle peut traiter simultanément. Une fenêtre contextuelle plus large améliore la capacité d'un LLM à engager des conversations plus longues, à analyser des documents plus vastes et à améliorer l'apprentissage en contexte. Toutefois, élargir la fenêtre contextuelle d'un Transformer entraîne un coût computationnel considérable. L'architecture Transformer fonctionne avec une "complexité quadratique", ce qui signifie que doubler la taille de l'entrée quadruple à la fois la mémoire et le temps de calcul nécessaires. Cette relation découle du mécanisme d'attention, où chaque élément de la séquence d'entrée est comparé aux autres.
Le Megalodon de Meta s'appuie sur la technique Moving Average Equipped Gated Attention (MEGA) introduite en 2022, qui optimise le mécanisme d'attention et réduit considérablement la complexité du modèle. Cela permet au LLM de traiter des entrées plus longues sans nécessiter une mémoire excessive. MEGA utilise une moyenne mobile exponentielle (EMA) pour équilibrer l'importance des relations entre les tokens locaux et à longue distance, garantissant la cohérence à mesure que le contexte s'élargit.
Innovations clés du Megalodon
Megalodon améliore MEGA grâce à plusieurs modifications architecturales qui alignent ses performances avec le mécanisme d'attention complet traditionnel des Transformers. Il utilise une "attention par morceaux", divisant les séquences d'entrée en blocs fixes, transformant la complexité de quadratique à linéaire. Cette approche facilite également un parallélisme accru, accélérant l'entraînement du modèle.
Les chercheurs ont formé une version de 7 milliards de paramètres de Megalodon sur 2 trillions de tokens, la comparant aux modèles Llama-2-7B et 13B. Les résultats montrent que Megalodon-7B surpasse les Transformers de pointe utilisés pour entraîner Llama-2-7B en perplexité d'entraînement et dans diverses tâches en aval, atteignant parfois les performances de Llama-2-13B. Bien que Megalodon maintienne une fenêtre contextuelle de 4 000 tokens à un rythme légèrement plus lent que Llama-2, il excelle avec une longueur de contexte de 32 000 tokens grâce à une efficacité computationnelle améliorée. Les premières découvertes expérimentales suggèrent que Megalodon peut modéliser efficacement des séquences de longueurs indéfinies.
L'équipe de recherche a également observé des résultats prometteurs lors d'expériences à plus petite échelle sur différentes modalités de données et prévoit d'adapter Megalodon pour des applications multimodales. Le code de Megalodon est disponible sur GitHub sous licence MIT, permettant une adaptation et un usage commercial sans restrictions.
La dominance des Transformers
Malgré l'exploration continue d'architectures alternatives, telles que Mamba (utilisée commercialement par AI21 Labs) et les réseaux neuronaux liquides développés au MIT, les Transformers restent l'architecture dominante pour les modèles de langage. Meta continue d'innover avec des modèles comme Megalodon tout en améliorant son offre de Transformers, notamment avec la récente sortie de Llama-3.
Adapter de nouvelles architectures pour correspondre à l'écosystème étendu d'outils et de bibliothèques disponibles pour les Transformers représente un défi. Ces outils facilitent l'entraînement des modèles, le réglage fin et l'optimisation pour une variété d'applications et d'appareils, ce qui confère aux Transformers un avantage constant.
Les chercheurs modifient également l'architecture Transformer pour atténuer ses exigences computationnelles. Par exemple, l'Infini-attention de Google vise à prendre en charge des fenêtres contextuelles illimitées sans augmenter les besoins en mémoire, les modèles actuels gérant des entrées de plusieurs centaines de milliers de tokens.
Alors que la recherche en IA évolue rapidement, il est essentiel de reconnaître que le paysage est dynamique. Lors de l'introduction du Transformer en 2017, peu s'attendaient à son influence profonde. Les modèles futurs pourraient encore surpasser le Transformer en termes de capacité.