Des chercheurs de l'ETH Zurich ont mis au point une technique révolutionnaire qui accroît considérablement l'efficacité des réseaux neuronaux. En modifiant le processus d'inférence, ils ont significativement réduit les exigences computationnelles de ces réseaux.
Lors de leurs expériences avec BERT, un modèle transformateur largement utilisé pour diverses tâches linguistiques, les chercheurs ont atteint une réduction remarquable de plus de 99 % des calculs. Cette méthode de pointe peut également être appliquée aux modèles transformateurs qui alimentent des grands modèles de langage (LLMs) comme GPT-3, ouvrant la voie à un traitement linguistique plus rapide et plus efficace.
Comprendre les Réseaux Feedforward Rapides
Les transformateurs, qui constituent la colonne vertébrale des LLMs, se composent de plusieurs couches, notamment des couches d'attention et des couches feedforward. Ces dernières, qui incluent une part importante des paramètres du modèle, sont intensives sur le plan computationnel en raison de la nécessité de calculer le produit de tous les neurones à travers les dimensions d'entrée.
Les chercheurs ont constaté qu'il n'était pas nécessaire d'activer tous les neurones des couches feedforward pour chaque entrée durant l'inférence. Ils ont introduit des couches "feedforward rapides" (FFF) pour remplacer les couches feedforward conventionnelles. Les FFF utilisent une multiplication matricielle conditionnelle (CMM), une opération mathématique qui remplace les multiplications matricielles denses (DMM) des réseaux feedforward traditionnels. Alors que la DMM implique de multiplier tous les paramètres d'entrée par tous les neurones, la CMM utilise sélectivement uniquement un sous-ensemble de neurones pour chaque entrée, simplifiant ainsi le traitement et réduisant la charge computationnelle.
FastBERT : Un Tournant dans le Traitement Linguistique
Pour tester leur technique innovante, les chercheurs ont développé FastBERT, une version modifiée du modèle BERT de Google. FastBERT améliore la performance en substituant les couches feedforward standard par des couches feedforward rapides, organisant les neurones dans une structure d'arbre binaire équilibrée qui active uniquement une branche selon les entrées spécifiques.
Pour évaluer les capacités de FastBERT, l'équipe a affiné divers modèles sur le benchmark General Language Understanding Evaluation (GLUE), une suite conçue pour évaluer les systèmes de compréhension du langage naturel.
Les résultats étaient saisissants : FastBERT a obtenu des performances similaires à celles des modèles BERT de base de taille comparable et de formation équivalente. Les variantes ajustées pendant seulement un jour sur un seul GPU A6000 maintenaient au moins 96,0 % des performances de BERT. Notamment, la meilleure variante a égalé les performances de BERT en n’utilisant que 0,3 % de ses neurones.
Les chercheurs affirment que l'intégration de réseaux feedforward rapides dans les LLMs offre un immense potentiel pour améliorer la vitesse. Par exemple, dans GPT-3, chaque couche transformateur contient 49 152 neurones ; grâce aux FFF, cela pourrait être optimisé pour n'utiliser que 16 neurones durant l'inférence, représentant environ 0,03 % des neurones de GPT-3.
S'attaquer aux Défis d'Optimisation
Bien que la multiplication matricielle dense ait bénéficié d'une optimisation substantielle au fil des ans, il en va différemment pour la multiplication matricielle conditionnelle. Les chercheurs ont noté que "la multiplication matricielle dense est l'opération mathématique la plus optimisée de l'histoire de l'informatique". Les cadres d'apprentissage profond actuels offrent un soutien limité pour la CMM, principalement à travers des simulations de haut niveau.
Pour faire progresser cette recherche, l'équipe a développé sa propre implémentation des opérations CMM, ce qui a entraîné une amélioration de vitesse impressionnante de 78 fois durant l'inférence. Ils estiment qu'avec un matériel amélioré et de meilleures implémentations algorithmiques de bas niveau, des vitesses pourraient dépasser une amélioration de 300 fois. Cela permettrait de s'attaquer à l'un des défis pressants des modèles linguistiques : générer des tokens plus rapidement.
Conclusion
La promesse d'une accélération théorique de 341 fois pour les modèles BERT de base souligne le potentiel transformateur de leur travail. Les chercheurs espèrent inspirer un développement supplémentaire de primitives d'exécution neuronale conditionnelle au sein des interfaces de programmation des dispositifs. Cette recherche représente une étape cruciale vers la résolution des limitations de mémoire et de calcul des grands modèles de langage, favorisant la création de systèmes d'IA plus efficaces et robustes.