Comment le déchargement d'attention réduit les coûts d'inférence des LLM à grande échelle

Home Actualités IA Comment le déchargement d'attention réduit les coûts d'inférence des LLM à grande échelle

Une étude récente menée par des chercheurs de l'Université Tsinghua met en avant comment la réorganisation des calculs et des configurations matérielles pour les grands modèles de langage (LLMs) peut réduire considérablement les coûts d'inférence. Ils introduisent une technique appelée "déchargement de l'attention", qui utilise des GPU rentables pour les tâches gourmandes en mémoire, permettant aux accélérateurs haute performance de se concentrer sur les opérations lourdes en calcul.

Avec des accélérateurs d'IA haut de gamme coûteux et en forte demande, le déchargement de l'attention offre aux entreprises une occasion d'optimiser leurs ressources matérielles lors du déploiement des LLMs à grande échelle.

Deux Types de Calculs

L'inférence des LLMs implique diverses opérations qui doivent être organisées stratégiquement pour tirer le meilleur parti de la mémoire et des capacités de traitement disponibles. Ces opérations se divisent principalement en deux catégories : celles liées au calcul et celles liées à la mémoire. Les opérations liées au calcul profitent des accélérateurs rapides tels que l'A100 et le H100, tandis que les opérations liées à la mémoire, notamment le mécanisme de l'auto-attention activé par chaque nouveau token, nécessitent une RAM vidéo (VRAM) ample.

Les chercheurs notent : "Cette charge de travail liée à la mémoire entre en conflit avec les forces des accélérateurs modernes, entraînant une surcharge des contrôleurs mémoire tandis que les cœurs de calcul restent inoccupés." Ce déséquilibre des ressources s'aggrave avec l'augmentation des longueurs de séquence, comme lors de prompts prolongés ou de conversations avec le modèle.

La Solution Innovante : Déchargement de l'Attention

Les méthodes actuelles se concentrent généralement sur l'extension d'architectures uniformes d'accélérateurs haut de gamme pour l'inférence. Les entreprises investissent souvent massivement dans les processeurs H100, ce qui entraîne des coûts gonflés et une utilisation non optimale du matériel. Les chercheurs soutiennent : "Les exigences uniques de la phase de génération des LLM nécessitent une architecture hétérogène pour améliorer l'efficacité et réduire les coûts."

Leur étude suggère que différents types d'accélérateurs conviennent à des aspects spécifiques de l'inférence des LLMs. Par exemple, les GPU de consommation sont des options économiques pour les tâches liées à la mémoire, offrant trois fois plus de capacité et de bande passante par dollar par rapport aux modèles haut de gamme. Cependant, se fier exclusivement à ces options à moindre coût peut s'avérer inefficace en raison de leur puissance de calcul limitée. Les calculs d'attention, en revanche, sont hautement parallélisables et peuvent être répartis sur plusieurs GPU économiques et efficaces en mémoire.

Mise en Œuvre d'une Architecture Hétérogène

La technique de déchargement de l'attention consiste à créer deux pools distincts d'accélérateurs : l'un axé sur les capacités de calcul et l'autre optimisé pour la bande passante mémoire. Ainsi, les tâches d'attention sont prises en charge par des GPU moins coûteux tandis que des accélérateurs haut de gamme gèrent d'autres opérations.

Les chercheurs expliquent : "Cette architecture hétérogène permet un système de services qui combine efficacement puissance de calcul, capacité mémoire et bande passante pour améliorer l'inférence des LLMs sans coûts excessifs." Cette adéquation stratégique des forces matérielles avec les exigences opérationnelles permet aux entreprises de maximiser leur budget en investissant dans un mélange équilibré d'accélérateurs optimisés pour la mémoire et le calcul.

Relever les Défis Architecturaux

L'étude évalue également les défis associés à cette architecture hétérogène, en particulier la bande passante nécessaire pour connecter les deux pools d'accélérateurs. Les résultats indiquent que des bus systèmes standards comme le PCIe 4.0 peuvent suffire, mais des technologies de mise en réseau telles que l'Infiniband 200Gb et l'Ethernet, déjà courantes dans les centres de données IA, sont également adéquates.

L'utilisation de techniques avancées de planification et de pipelining aide à atténuer la latence causée par l'architecture non uniforme, garantissant que les ressources mémoire et de calcul fonctionnent simultanément sans être entravées par des calculs séquentiels.

Présentation de Lamina

Les chercheurs ont développé Lamina, un système d'inférence LLM hétérogène distribué qui utilise le déchargement de l'attention. Lamina utilise des GPU grand public pour stocker des valeurs d'attention calculées (le "cache KV") et effectuer des opérations d'attention, tandis que des accélérateurs haut de gamme gèrent les paramètres du modèle et d'autres tâches d'inférence. Ces dispositifs peuvent fonctionner au sein de la même machine physique ou être répartis sur plusieurs nœuds.

En déchargeant le stockage du cache KV et les calculs d'attention vers des GPU efficaces en mémoire, Lamina peut traiter des lots de 10,7 à 64 fois plus grands que ceux gérés par vLLM, une plateforme d'hébergement LLM largement utilisée. Cette efficacité est cruciale pour faire un usage optimal des coûteux accélérateurs optimisés pour le calcul, en particulier lors des déploiements à grande échelle des LLMs.

Les évaluations expérimentales révèlent que Lamina atteint des taux de débit 1,48 à 12,1 fois plus élevés par rapport aux solutions existantes pour les modèles de 13B et 33B. À mesure que les LLMs deviennent courants, les entreprises auront besoin de stratégies novatrices pour une inference coût-efficace et une réduction des dépenses d'investissement dans les accélérateurs — un objectif que le déchargement de l'attention réussit à atteindre. Bien que les chercheurs n'aient pas encore publié le code de Lamina, les fondements sont clairement exposés, ce qui devrait favoriser une mise en œuvre rapide par la communauté open source.

Google lance le projet Astra : un agent d'IA conçu pour comprendre les dynamiques mondiales et rivaliser avec GPT-4o.

Google dévoile Veo : un nouveau modèle de vidéo générative captivant pour rivaliser avec Sora d’OpenAI.

Most people like

GenPPT - AI PowerPoint Generator

20K

Transformez votre processus de création de présentations avec GenPPT—réalisez des diapositives époustouflantes en un rien de temps !

Générateur de présentations IA AI Presentation Generator

Driverbook

Découvrez le réseau social et le suivi des dépenses ultimes, spécialement conçus pour les conducteurs ! Connectez-vous avec d'autres automobilistes tout en gérant sans effort vos dépenses sur la route. Restez organisé et partagez vos expériences au sein d'une communauté dédiée à l'optimisation de votre expérience de conduite.

Communauté de conducteurs Other

Natural Language Playlist

13K

Découvrez une plateforme IA innovante qui crée des mixtapes personnalisées à partir de vos descriptions en langage naturel. Cette technologie de pointe transforme vos mots en une expérience musicale sur mesure, conçue juste pour vous.

Mixtapes générés par l'IA AI Music Generator

La Terminal

10.1K

Présentation d'un terminal SSH entièrement natif pour une informatique spatiale améliorée Débloquez le plein potentiel de l'informatique spatiale avec notre terminal SSH entièrement natif. Profitez d'une intégration fluide et d'une productivité accrue en naviguant et en gérant vos serveurs distants avec aisance. Notre terminal est conçu pour des performances optimales, garantissant une connexion sécurisée et efficace tout en maximisant votre flux de travail. Que vous soyez développeur, administrateur système ou passionné de technologie, cet outil est votre porte d'entrée vers la maîtrise de l'informatique spatiale avec facilité et précision.

SSH Other

Find AI tools in YBX