Une architecture de transformateur révolutionnaire améliore la rapidité et l'efficacité des ressources des modèles linguistiques.

Home Actualités IA Une architecture de transformateur révolutionnaire améliore la rapidité et l'efficacité des ressources des modèles linguistiques.

Updated on décembre 1 2023

Les grands modèles linguistiques, tels que ChatGPT et Llama-2, sont réputés pour leurs exigences mémorielles et computationnelles élevées, ce qui les rend coûteux à utiliser. Réduire ne serait-ce qu'une petite partie de leur taille peut entraîner des économies considérables.

Pour relever ce défi, des chercheurs de l'ETH Zurich ont développé une version innovante du transformer, une architecture d'apprentissage profond fondatrice des modèles linguistiques. Ce nouveau design réduit significativement la taille du transformer tout en maintenant la précision et en améliorant la vitesse d'inférence, offrant ainsi une méthode prometteuse pour créer des modèles linguistiques plus efficaces.

Comprendre les Blocs Transformers

Les modèles linguistiques reposent sur des blocs transformers, qui sont des unités uniformes conçues pour traiter des données séquentielles comme des passages de texte. Un bloc transformer classique se compose de deux éléments clés : le mécanisme d'attention et le perceptron multicouche (MLP). Le mécanisme d'attention met en avant certaines parties des données d'entrée (comme les mots d'une phrase), capturant leur contexte et leur importance les uns par rapport aux autres. Cette capacité permet au modèle de comprendre les relations entre les mots, même lorsqu'ils sont éloignés dans le texte.

Après le mécanisme d'attention, le MLP, un réseau de neurones plus petit, affine davantage les informations mises en évidence, les transformant en une représentation plus sophistiquée qui capture des relations complexes. Des composants supplémentaires, comme les connexions résiduelles et les couches de normalisation, améliorent l'apprentissage et résolvent les défis courants dans les réseaux de neurones profonds. Au fur et à mesure que ces blocs transformers s'empilent pour former un modèle linguistique, leur capacité à reconnaître des relations complexes augmente, permettant ainsi d'accomplir des tâches avancées. Malgré leur impact révolutionnaire, le design de base du bloc transformer est resté largement inchangé depuis son origine.

Améliorer l'Efficacité du Transformer

Selon les chercheurs de l'ETH Zurich, « Étant donné le coût exorbitant de l'entraînement et du déploiement des grands modèles transformers de nos jours, tout gain d'efficacité dans les pipelines d'entraînement et d'inférence pour l'architecture transformer représente des économies significatives. » Ils soutiennent que simplifier le bloc transformer en supprimant les composants non essentiels réduit le nombre de paramètres et augmente le débit du modèle.

Leurs expériences montrent que le raffinement du bloc transformer ne compromet ni la vitesse d'entraînement ni les performances. Les modèles transformers traditionnels utilisent plusieurs têtes d'attention, chacune avec son propre ensemble de paramètres clé (K), requête (Q) et valeur (V), facilitant la cartographie des relations entre les tokens d'entrée. Les chercheurs ont constaté que l'élimination des paramètres V et de la couche de projection associée n'affectait pas l'efficacité. De plus, ils ont retiré les connexions de contournement, qui empêchent typiquement le problème des « gradients qui s'évanouissent », un obstacle à l'entraînement dans les réseaux profonds.

Nouveau Design de Bloc Transformer

Le nouveau bloc transformer traite simultanément les têtes d'attention et le MLP, s'écartant du traitement séquentiel traditionnel. Pour compenser la réduction des paramètres, les chercheurs ont ajusté d'autres paramètres non apprenants, affiné leurs méthodes d'entraînement et apporté des modifications architecturales. Ces innovations préservent collectivement les capacités d'apprentissage du modèle malgré son cadre plus léger.

Tester le Bloc Transformer Amélioré

L'équipe de l'ETH Zurich a évalué son bloc transformer compact à travers différentes profondeurs de modèle linguistique. Ils ont réussi à réduire la taille du transformer classique d'environ 16 % sans sacrifier la précision, tout en obtenant des temps d'inférence plus rapides. Par exemple, l'application de cette architecture à un grand modèle comme GPT-3, avec 175 milliards de paramètres, pourrait économiser environ 50 Go de mémoire.

« Nos modèles simplifiés s'entraînent non seulement plus rapidement, mais utilisent également mieux la capacité supplémentaire due à une plus grande profondeur », ont noté les chercheurs. Bien que cette technique ait montré son efficacité à petite échelle, son application à des modèles plus grands reste à explorer. Le potentiel d'améliorations supplémentaires, telles que la personnalisation des processeurs AI pour cette architecture optimisée, pourrait amplifier considérablement son impact.

Les chercheurs concluent : « Nous croyons que notre travail peut conduire à l'adoption de conceptions plus simples en pratique, comblant le fossé entre théorie et application dans l'apprentissage profond, tout en réduisant les coûts associés aux grands modèles transformers. »

Meta AI Lance un Traducteur 'Sans Couture' pour une Communication en Temps Réel Fluide entre les Langues

Concevoir la couche de données idéale pour l'IA générative : informations clés d'Intuit

Most people like

CodeSquire - AI code writing assistant

7.1K

CodeSquire est un assistant IA innovant conçu spécifiquement pour les data scientists, générant sans effort des fonctions de code pour optimiser les flux de travail et améliorer la productivité.

IA AI Code Assistant

AI Image Extender

11.3K

Dans le monde visuel d'aujourd'hui, la demande d'images de haute qualité n'a jamais été aussi forte. Voici l'outil d'expansion photo par IA—une technologie innovante qui améliore et agrandit vos images tout en préservant des détails et une clarté impressionnants. Que vous souhaitiez agrandir une photo personnelle ou améliorer des images à des fins professionnelles, cet outil transformateur utilise des algorithmes d'intelligence artificielle avancés pour offrir des résultats époustouflants. Découvrez comment l'outil d'expansion photo par IA révolutionne la manière dont nous créons et partageons du contenu visuel, rendant plus facile que jamais l'élévation de vos images vers de nouveaux sommets.

Extension d'image AI AI Photo & Image Generator

Readable

95.4K

Traduisiez facilement des PDFs en temps réel avec Readable. Que vous ayez besoin de traductions rapides pour le travail, les études ou un usage personnel, Readable simplifie le processus, le rendant accessible et efficace.

IA Translate

Sana

113.4K

Sana est une plateforme d'apprentissage innovante, alimentée par l'IA, conçue pour aider les organisations à découvrir et partager des connaissances de manière fluide. Grâce à ses algorithmes avancés, Sana améliore les expériences d'apprentissage, facilitant l'accès des équipes à des informations et compétences précieuses.

Plateforme d'apprentissage alimentée par l'IA AI Course

Find AI tools in YBX