Meta s'attaque à l'architecture des Transformers avec le lancement de Megalodon LLM.

Home Actualités IA Meta s'attaque à l'architecture des Transformers avec le lancement de Megalodon LLM.

Un nouveau modèle d'apprentissage automatique développé par des chercheurs de Meta et de l'Université de Californie du Sud répond à des défis clés liés à l'architecture Transformer, qui a joué un rôle essentiel dans l'avancement des modèles de langage de grande taille (LLMs). Ce modèle, nommé Megalodon, étend considérablement la fenêtre contextuelle à des millions de tokens tout en minimisant l'utilisation de la mémoire. Les expériences montrent que Megalodon surpasse les modèles Transformer comparables dans le traitement de textes volumineux, le positionnant comme un successeur potentiel à l'architecture Transformer.

Comprendre les fenêtres contextuelles

La "fenêtre contextuelle" désigne le nombre de tokens qu'un modèle peut traiter simultanément. Une fenêtre contextuelle plus large améliore la capacité d'un LLM à engager des conversations plus longues, à analyser des documents plus vastes et à améliorer l'apprentissage en contexte. Toutefois, élargir la fenêtre contextuelle d'un Transformer entraîne un coût computationnel considérable. L'architecture Transformer fonctionne avec une "complexité quadratique", ce qui signifie que doubler la taille de l'entrée quadruple à la fois la mémoire et le temps de calcul nécessaires. Cette relation découle du mécanisme d'attention, où chaque élément de la séquence d'entrée est comparé aux autres.

Le Megalodon de Meta s'appuie sur la technique Moving Average Equipped Gated Attention (MEGA) introduite en 2022, qui optimise le mécanisme d'attention et réduit considérablement la complexité du modèle. Cela permet au LLM de traiter des entrées plus longues sans nécessiter une mémoire excessive. MEGA utilise une moyenne mobile exponentielle (EMA) pour équilibrer l'importance des relations entre les tokens locaux et à longue distance, garantissant la cohérence à mesure que le contexte s'élargit.

Innovations clés du Megalodon

Megalodon améliore MEGA grâce à plusieurs modifications architecturales qui alignent ses performances avec le mécanisme d'attention complet traditionnel des Transformers. Il utilise une "attention par morceaux", divisant les séquences d'entrée en blocs fixes, transformant la complexité de quadratique à linéaire. Cette approche facilite également un parallélisme accru, accélérant l'entraînement du modèle.

Les chercheurs ont formé une version de 7 milliards de paramètres de Megalodon sur 2 trillions de tokens, la comparant aux modèles Llama-2-7B et 13B. Les résultats montrent que Megalodon-7B surpasse les Transformers de pointe utilisés pour entraîner Llama-2-7B en perplexité d'entraînement et dans diverses tâches en aval, atteignant parfois les performances de Llama-2-13B. Bien que Megalodon maintienne une fenêtre contextuelle de 4 000 tokens à un rythme légèrement plus lent que Llama-2, il excelle avec une longueur de contexte de 32 000 tokens grâce à une efficacité computationnelle améliorée. Les premières découvertes expérimentales suggèrent que Megalodon peut modéliser efficacement des séquences de longueurs indéfinies.

L'équipe de recherche a également observé des résultats prometteurs lors d'expériences à plus petite échelle sur différentes modalités de données et prévoit d'adapter Megalodon pour des applications multimodales. Le code de Megalodon est disponible sur GitHub sous licence MIT, permettant une adaptation et un usage commercial sans restrictions.

La dominance des Transformers

Malgré l'exploration continue d'architectures alternatives, telles que Mamba (utilisée commercialement par AI21 Labs) et les réseaux neuronaux liquides développés au MIT, les Transformers restent l'architecture dominante pour les modèles de langage. Meta continue d'innover avec des modèles comme Megalodon tout en améliorant son offre de Transformers, notamment avec la récente sortie de Llama-3.

Adapter de nouvelles architectures pour correspondre à l'écosystème étendu d'outils et de bibliothèques disponibles pour les Transformers représente un défi. Ces outils facilitent l'entraînement des modèles, le réglage fin et l'optimisation pour une variété d'applications et d'appareils, ce qui confère aux Transformers un avantage constant.

Les chercheurs modifient également l'architecture Transformer pour atténuer ses exigences computationnelles. Par exemple, l'Infini-attention de Google vise à prendre en charge des fenêtres contextuelles illimitées sans augmenter les besoins en mémoire, les modèles actuels gérant des entrées de plusieurs centaines de milliers de tokens.

Alors que la recherche en IA évolue rapidement, il est essentiel de reconnaître que le paysage est dynamique. Lors de l'introduction du Transformer en 2017, peu s'attendaient à son influence profonde. Les modèles futurs pourraient encore surpasser le Transformer en termes de capacité.

La critique « Pas Mal » d'Elon Musk met en lumière l'intelligence artificielle Llama 3 de Meta.

Microsoft dévoile VASA-1 : un cadre d'IA qui donne vie aux portraits humains avec la voix et la chanson.

Most people like

DomoAI

504.4K

Libérez votre créativité avec des générateurs d'art alimentés par l'IA à la pointe de la technologie ! Ces outils innovants utilisent l'intelligence artificielle pour transformer vos idées en œuvres d'art visuelles époustouflantes, facilitant ainsi la création de chefs-d'œuvre uniques comme jamais auparavant. Que vous soyez un artiste en herbe ou un créateur expérimenté, découvrez comment la technologie IA peut enrichir votre parcours artistique et inspirer votre prochain projet.

Générateur d'art IA AI Animated Video

Musick AI

21K

Découvrez la puissance d'un générateur de musique AI qui crée des compositions musicales de haute qualité sans effort. Que vous soyez un musicien chevronné à la recherche d'inspiration ou un débutant souhaitant explorer votre créativité, cette technologie de pointe vous permet de composer une musique unique et de qualité professionnelle, adaptée à votre vision. Libérez votre potentiel artistique avec notre générateur de musique AI innovant dès aujourd'hui !

générateur de musique AI AI Music Generator

BotsCrew

38.9K

Dans le paysage numérique d'aujourd'hui, les entreprises se tournent de plus en plus vers des chatbots personnalisés intelligents pour améliorer les interactions avec les clients et optimiser leurs opérations. En tirant parti de la technologie avancée de l'IA, ces chatbots peuvent offrir un support personnalisé, répondre aux questions en temps réel et améliorer considérablement l'expérience utilisateur. Que vous cherchiez à augmenter vos ventes, à améliorer le service client ou à automatiser des tâches répétitives, investir dans le développement de chatbots sur mesure est un choix stratégique pour toute organisation visionnaire. Découvrez le potentiel transformateur des chatbots et comment ils peuvent stimuler la croissance et l'engagement de votre marque.

développement de chatbot AI Chatbot

Perplexity AI

72.3M

Découvrez la puissance d'un moteur de recherche alimenté par l'IA qui tire parti des modèles de langage avancés et des moteurs de recherche traditionnels pour des résultats améliorés.

Moteur de recherche IA AI Search Engine

Find AI tools in YBX