Une architecture de transformateur révolutionnaire améliore la rapidité et l'efficacité des ressources des modèles linguistiques.

Les grands modèles linguistiques, tels que ChatGPT et Llama-2, sont réputés pour leurs exigences mémorielles et computationnelles élevées, ce qui les rend coûteux à utiliser. Réduire ne serait-ce qu'une petite partie de leur taille peut entraîner des économies considérables.

Pour relever ce défi, des chercheurs de l'ETH Zurich ont développé une version innovante du transformer, une architecture d'apprentissage profond fondatrice des modèles linguistiques. Ce nouveau design réduit significativement la taille du transformer tout en maintenant la précision et en améliorant la vitesse d'inférence, offrant ainsi une méthode prometteuse pour créer des modèles linguistiques plus efficaces.

Comprendre les Blocs Transformers

Les modèles linguistiques reposent sur des blocs transformers, qui sont des unités uniformes conçues pour traiter des données séquentielles comme des passages de texte. Un bloc transformer classique se compose de deux éléments clés : le mécanisme d'attention et le perceptron multicouche (MLP). Le mécanisme d'attention met en avant certaines parties des données d'entrée (comme les mots d'une phrase), capturant leur contexte et leur importance les uns par rapport aux autres. Cette capacité permet au modèle de comprendre les relations entre les mots, même lorsqu'ils sont éloignés dans le texte.

Après le mécanisme d'attention, le MLP, un réseau de neurones plus petit, affine davantage les informations mises en évidence, les transformant en une représentation plus sophistiquée qui capture des relations complexes. Des composants supplémentaires, comme les connexions résiduelles et les couches de normalisation, améliorent l'apprentissage et résolvent les défis courants dans les réseaux de neurones profonds. Au fur et à mesure que ces blocs transformers s'empilent pour former un modèle linguistique, leur capacité à reconnaître des relations complexes augmente, permettant ainsi d'accomplir des tâches avancées. Malgré leur impact révolutionnaire, le design de base du bloc transformer est resté largement inchangé depuis son origine.

Améliorer l'Efficacité du Transformer

Selon les chercheurs de l'ETH Zurich, « Étant donné le coût exorbitant de l'entraînement et du déploiement des grands modèles transformers de nos jours, tout gain d'efficacité dans les pipelines d'entraînement et d'inférence pour l'architecture transformer représente des économies significatives. » Ils soutiennent que simplifier le bloc transformer en supprimant les composants non essentiels réduit le nombre de paramètres et augmente le débit du modèle.

Leurs expériences montrent que le raffinement du bloc transformer ne compromet ni la vitesse d'entraînement ni les performances. Les modèles transformers traditionnels utilisent plusieurs têtes d'attention, chacune avec son propre ensemble de paramètres clé (K), requête (Q) et valeur (V), facilitant la cartographie des relations entre les tokens d'entrée. Les chercheurs ont constaté que l'élimination des paramètres V et de la couche de projection associée n'affectait pas l'efficacité. De plus, ils ont retiré les connexions de contournement, qui empêchent typiquement le problème des « gradients qui s'évanouissent », un obstacle à l'entraînement dans les réseaux profonds.

Nouveau Design de Bloc Transformer

Le nouveau bloc transformer traite simultanément les têtes d'attention et le MLP, s'écartant du traitement séquentiel traditionnel. Pour compenser la réduction des paramètres, les chercheurs ont ajusté d'autres paramètres non apprenants, affiné leurs méthodes d'entraînement et apporté des modifications architecturales. Ces innovations préservent collectivement les capacités d'apprentissage du modèle malgré son cadre plus léger.

Tester le Bloc Transformer Amélioré

L'équipe de l'ETH Zurich a évalué son bloc transformer compact à travers différentes profondeurs de modèle linguistique. Ils ont réussi à réduire la taille du transformer classique d'environ 16 % sans sacrifier la précision, tout en obtenant des temps d'inférence plus rapides. Par exemple, l'application de cette architecture à un grand modèle comme GPT-3, avec 175 milliards de paramètres, pourrait économiser environ 50 Go de mémoire.

« Nos modèles simplifiés s'entraînent non seulement plus rapidement, mais utilisent également mieux la capacité supplémentaire due à une plus grande profondeur », ont noté les chercheurs. Bien que cette technique ait montré son efficacité à petite échelle, son application à des modèles plus grands reste à explorer. Le potentiel d'améliorations supplémentaires, telles que la personnalisation des processeurs AI pour cette architecture optimisée, pourrait amplifier considérablement son impact.

Les chercheurs concluent : « Nous croyons que notre travail peut conduire à l'adoption de conceptions plus simples en pratique, comblant le fossé entre théorie et application dans l'apprentissage profond, tout en réduisant les coûts associés aux grands modèles transformers. »

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles