Une étude récente menée par des chercheurs de l'Université Tsinghua met en avant comment la réorganisation des calculs et des configurations matérielles pour les grands modèles de langage (LLMs) peut réduire considérablement les coûts d'inférence. Ils introduisent une technique appelée "déchargement de l'attention", qui utilise des GPU rentables pour les tâches gourmandes en mémoire, permettant aux accélérateurs haute performance de se concentrer sur les opérations lourdes en calcul.
Avec des accélérateurs d'IA haut de gamme coûteux et en forte demande, le déchargement de l'attention offre aux entreprises une occasion d'optimiser leurs ressources matérielles lors du déploiement des LLMs à grande échelle.
Deux Types de Calculs
L'inférence des LLMs implique diverses opérations qui doivent être organisées stratégiquement pour tirer le meilleur parti de la mémoire et des capacités de traitement disponibles. Ces opérations se divisent principalement en deux catégories : celles liées au calcul et celles liées à la mémoire. Les opérations liées au calcul profitent des accélérateurs rapides tels que l'A100 et le H100, tandis que les opérations liées à la mémoire, notamment le mécanisme de l'auto-attention activé par chaque nouveau token, nécessitent une RAM vidéo (VRAM) ample.
Les chercheurs notent : "Cette charge de travail liée à la mémoire entre en conflit avec les forces des accélérateurs modernes, entraînant une surcharge des contrôleurs mémoire tandis que les cœurs de calcul restent inoccupés." Ce déséquilibre des ressources s'aggrave avec l'augmentation des longueurs de séquence, comme lors de prompts prolongés ou de conversations avec le modèle.
La Solution Innovante : Déchargement de l'Attention
Les méthodes actuelles se concentrent généralement sur l'extension d'architectures uniformes d'accélérateurs haut de gamme pour l'inférence. Les entreprises investissent souvent massivement dans les processeurs H100, ce qui entraîne des coûts gonflés et une utilisation non optimale du matériel. Les chercheurs soutiennent : "Les exigences uniques de la phase de génération des LLM nécessitent une architecture hétérogène pour améliorer l'efficacité et réduire les coûts."
Leur étude suggère que différents types d'accélérateurs conviennent à des aspects spécifiques de l'inférence des LLMs. Par exemple, les GPU de consommation sont des options économiques pour les tâches liées à la mémoire, offrant trois fois plus de capacité et de bande passante par dollar par rapport aux modèles haut de gamme. Cependant, se fier exclusivement à ces options à moindre coût peut s'avérer inefficace en raison de leur puissance de calcul limitée. Les calculs d'attention, en revanche, sont hautement parallélisables et peuvent être répartis sur plusieurs GPU économiques et efficaces en mémoire.
Mise en Œuvre d'une Architecture Hétérogène
La technique de déchargement de l'attention consiste à créer deux pools distincts d'accélérateurs : l'un axé sur les capacités de calcul et l'autre optimisé pour la bande passante mémoire. Ainsi, les tâches d'attention sont prises en charge par des GPU moins coûteux tandis que des accélérateurs haut de gamme gèrent d'autres opérations.
Les chercheurs expliquent : "Cette architecture hétérogène permet un système de services qui combine efficacement puissance de calcul, capacité mémoire et bande passante pour améliorer l'inférence des LLMs sans coûts excessifs." Cette adéquation stratégique des forces matérielles avec les exigences opérationnelles permet aux entreprises de maximiser leur budget en investissant dans un mélange équilibré d'accélérateurs optimisés pour la mémoire et le calcul.
Relever les Défis Architecturaux
L'étude évalue également les défis associés à cette architecture hétérogène, en particulier la bande passante nécessaire pour connecter les deux pools d'accélérateurs. Les résultats indiquent que des bus systèmes standards comme le PCIe 4.0 peuvent suffire, mais des technologies de mise en réseau telles que l'Infiniband 200Gb et l'Ethernet, déjà courantes dans les centres de données IA, sont également adéquates.
L'utilisation de techniques avancées de planification et de pipelining aide à atténuer la latence causée par l'architecture non uniforme, garantissant que les ressources mémoire et de calcul fonctionnent simultanément sans être entravées par des calculs séquentiels.
Présentation de Lamina
Les chercheurs ont développé Lamina, un système d'inférence LLM hétérogène distribué qui utilise le déchargement de l'attention. Lamina utilise des GPU grand public pour stocker des valeurs d'attention calculées (le "cache KV") et effectuer des opérations d'attention, tandis que des accélérateurs haut de gamme gèrent les paramètres du modèle et d'autres tâches d'inférence. Ces dispositifs peuvent fonctionner au sein de la même machine physique ou être répartis sur plusieurs nœuds.
En déchargeant le stockage du cache KV et les calculs d'attention vers des GPU efficaces en mémoire, Lamina peut traiter des lots de 10,7 à 64 fois plus grands que ceux gérés par vLLM, une plateforme d'hébergement LLM largement utilisée. Cette efficacité est cruciale pour faire un usage optimal des coûteux accélérateurs optimisés pour le calcul, en particulier lors des déploiements à grande échelle des LLMs.
Les évaluations expérimentales révèlent que Lamina atteint des taux de débit 1,48 à 12,1 fois plus élevés par rapport aux solutions existantes pour les modèles de 13B et 33B. À mesure que les LLMs deviennent courants, les entreprises auront besoin de stratégies novatrices pour une inference coût-efficace et une réduction des dépenses d'investissement dans les accélérateurs — un objectif que le déchargement de l'attention réussit à atteindre. Bien que les chercheurs n'aient pas encore publié le code de Lamina, les fondements sont clairement exposés, ce qui devrait favoriser une mise en œuvre rapide par la communauté open source.