Architecture de Transformateur Révolutionnaire : Déverrouillage de LLMs Puissants Sans GPU

Modèles de Langage Sans Multiplication de Matrices : Une Révolution en Matière d'Efficacité

Les multiplications de matrices (MatMul) sont les opérations les plus exigeantes en ressources dans les grands modèles de langage (LLMs) utilisant l'architecture Transformer. À mesure que ces modèles prennent de l'ampleur, les coûts liés aux opérations MatMul augmentent considérablement, entraînant une hausse de la consommation mémoire et de la latence lors de l'entraînement et de l'inférence.

Des chercheurs de l'Université de Californie à Santa Cruz, de l'Université Soochow et de l'Université de Californie à Davis ont développé une architecture innovante qui élimine les multiplications de matrices des modèles de langage tout en offrant des performances robustes à grande échelle.

Présentation des Modèles de Langage Sans MatMul

Dans leur étude révolutionnaire, les chercheurs présentent des modèles de langage sans MatMul qui égalent les performances des Transformers de pointe mais nécessitent beaucoup moins de mémoire lors de l'inférence.

Compréhension de la Multiplication de Matrices en Apprentissage Profond

La multiplication de matrices est fondamentale en apprentissage profond pour combiner des données avec des poids dans les réseaux de neurones, facilitant la transformation des données d'entrée pour générer des prédictions. Les GPU excellent dans l'exécution simultanée de nombreuses opérations MatMul grâce à leur architecture parallèle, essentielle pour entraîner et déployer efficacement des modèles complexes.

Cependant, à mesure que les LLMs intègrent des centaines de milliards de paramètres, les opérations MatMul deviennent des goulets d'étranglement, nécessitant d'énormes clusters GPU pour l'entraînement et l'inférence. L'élimination de MatMul pourrait générer des économies considérables en mémoire et en calcul. Néanmoins, les tentatives précédentes de substitution des opérations MatMul ont produit des résultats incohérents, ralentissant souvent les processus en raison de performances sous-optimales sur les GPU.

Révolution des Opérations avec des Poids Ternaires

Les chercheurs proposent une alternative passionnante : remplacer les poids flottants traditionnels de 16 bits dans les Transformers par des poids ternaires de 3 bits pouvant représenter trois états : -1, 0 et +1. Ils introduisent des opérations additives pour remplacer MatMul, entraînant des réductions significatives des coûts de calcul. Leurs modèles utilisent des "couches BitLinear" qui exploitent ces poids ternaires.

“En contraignant les poids à l'ensemble {−1, 0, +1} et en appliquant des techniques de quantification supplémentaires, nous avons remplacé MatMul par des opérations d'addition et de négation,” expliquent les chercheurs.

Modifications Architecturales Innovantes

L'architecture se distingue fondamentalement des Transformers traditionnels, composés de mélangeurs de tokens et de canaux. Le mélangeur de tokens, responsable de l'intégration des informations à travers les tokens de séquence via des mécanismes d'auto-attention, évolue vers une Unité Récurrente Linéaire sans MatMul (MLGRU). La MLGRU traite les tokens en mettant à jour les états cachés par des opérations ternaires simples, contournant ainsi les multiplications de matrices coûteuses.

De plus, le mélangeur de canaux, qui intègre les informations à travers différents canaux de caractéristiques de la représentation d'un token, utilise une Unité Linéaire Gérée (GLU) modifiée pour accepter les poids ternaires. Cet ajustement réduit la complexité computationnelle et la consommation mémoire tout en maintenant une intégration efficace des caractéristiques.

“En combinant le mélangeur de tokens MLGRU avec le mélangeur de canaux GLU utilisant des poids ternaires, notre architecture ne repose que sur des opérations d'addition et de produits élémentaires,” notent les chercheurs.

Évaluation des Performances des Modèles de Langage Sans MatMul

Les chercheurs comparent leurs LMs sans MatMul à l'architecture avancée Transformer++, comme utilisée dans Llama-2, à travers plusieurs tailles de modèles. Leurs résultats montrent que le LM sans MatMul utilise efficacement des ressources computationnelles supplémentaires pour améliorer les performances par rapport à Transformer++.

Dans l'évaluation de tâches linguistiques, le LM de 2,7 milliards de paramètres a dépassé les performances de son homologue Transformer++ sur des benchmarks tels que ARC-Challenge et OpenbookQA, tout en obtenant des résultats comparables dans d'autres tâches.

“Ces résultats démontrent que les architectures sans MatMul peuvent offrir de solides performances en zero-shot à travers diverses tâches linguistiques, y compris la réponse à des questions et le raisonnement de sens commun,” affirment les chercheurs.

La consommation mémoire et la latence des LMs sans MatMul deviennent plus évidentes avec l'augmentation de la taille des modèles. Par exemple, le modèle de 13 milliards de paramètres nécessite seulement 4,19 Go de mémoire GPU avec une latence de 695,48 ms, tandis que le Transformer++ exige 48,50 Go avec une latence de 3183,10 ms.

Implémentations Optimisées et Perspectives Futures

Les chercheurs ont développé une implémentation GPU optimisée et une configuration FPGA personnalisée pour les modèles de langage sans MatMul. Grâce à cette optimisation, ils ont atteint une accélération de 25,6 % dans l'entraînement et jusqu'à 61,0 % de réduction de l'utilisation mémoire par rapport à une base non optimisée.

“Ce travail va au-delà des implémentations logicielles de modèles légers, démontrant que des modèles de langage évolutifs et efficaces peuvent effectivement réduire les demandes computationnelles et la consommation d'énergie,” concluent les chercheurs.

Bien que des contraintes aient limité les tests sur des modèles dépassant 100 milliards de paramètres, les chercheurs espèrent inciter les institutions à investir dans des modèles légers, ouvrant la voie à des modèles de langage plus accessibles, indépendamment des GPU haut de gamme. Les chercheurs ont mis à disposition leur code et leurs modèles pour la communauté de recherche.

“En priorisant le développement d'architectures sans MatMul, l'avenir des LLMs tendra vers une plus grande accessibilité, efficacité et durabilité,” plaident les chercheurs.

Most people like

Find AI tools in YBX