Um estudo recente realizado por pesquisadores da Universidade Tsinghua destaca como reorganizar os cálculos e configurações de hardware para grandes modelos de linguagem (LLMs) pode reduzir significativamente os custos de inferência. Eles introduzem uma técnica chamada “offloading de atenção”, que utiliza GPUs econômicas para tarefas intensivas em memória, permitindo que os aceleradores de alto desempenho se concentrem em operações que exigem grande capacidade de cálculo.
Com aceleradores de IA de alta qualidade sendo caros, escassos e muito demandados, o offloading de atenção oferece uma oportunidade para que as empresas otimizem seus recursos de hardware ao implantar LLMs em larga escala.
Dois Tipos de Cálculos
A inferência de LLM envolve várias operações que precisam ser organizadas estrategicamente para maximizar a utilização da memória disponível e das capacidades de processamento. Essas operações podem ser classificadas em duas categorias principais: limitadas por cálculo e limitadas por memória. As operações limitadas por cálculo se beneficiam de aceleradores mais rápidos, como os A100 e H100, enquanto as operações limitadas por memória—particularmente o mecanismo de autoatenção ativado por cada novo token—exigem uma quantidade considerável de memória de vídeo (VRAM).
Os pesquisadores observam: “Essa carga de trabalho limitada por memória conflita com as vantagens dos aceleradores modernos, levando a controladores de memória sobrecarregados enquanto os núcleos de computação permanecem ociosos.” Esse desequilíbrio de recursos se agrava com o aumento dos comprimentos de sequência, como em solicitações extensas de usuários ou conversas com o modelo.
A Solução Inovadora: Offloading de Atenção
As abordagens atuais geralmente se concentram na escalabilidade de arquiteturas uniformes de aceleradores de alto desempenho para inferência. As empresas costumam investir pesadamente em processadores H100 para expandir suas capacidades de inferência, resultando em custos elevados e uso subótimo do hardware.
Os pesquisadores argumentam: “As demandas exclusivas da fase de geração de LLM exigem uma arquitetura heterogênea para melhorar a eficiência e reduzir os custos.” O estudo sugere que diferentes tipos de aceleradores são adequados para aspectos específicos da inferência de LLM. Por exemplo, GPUs de nível de consumidor são opções econômicas para tarefas limitadas por memória, oferecendo três vezes a capacidade de memória e largura de banda por dólar em comparação com modelos de alto desempenho. No entanto, depender exclusivamente dessas opções de custo menor pode ser ineficiente devido à sua capacidade de cálculo limitada.
As computações de atenção, entretanto, são altamente paralelizáveis e podem ser distribuídas entre várias GPUs econômicas e eficientes em memória.
Implementando uma Arquitetura Heterogênea
A técnica de offloading de atenção envolve a criação de dois grupos distintos de aceleradores: um focado nas capacidades computacionais e outro otimizado para a largura de banda de memória. Assim, as tarefas de atenção são realizadas por GPUs de menor custo, enquanto os aceleradores de alto desempenho gerenciam outras operações.
Os pesquisadores explicam: “Essa arquitetura heterogênea permite um sistema de serviços que combina eficientemente poder computacional, capacidade de memória e largura de banda para melhorar a inferência de LLM sem custos excessivos.” Esse alinhamento estratégico das forças de hardware com requisitos operacionais permite que as empresas maximizem seus orçamentos investindo em uma mistura equilibrada de aceleradores otimizados para memória e computação.
Enfrentando Desafios Arquitetônicos
O estudo também avalia os desafios associados a essa arquitetura heterogênea, particularmente a largura de banda necessária para conectar os dois grupos de aceleradores. Os resultados indicam que não apenas os barramentos de sistema padrão, como PCIe 4.0, são suficientes, mas também tecnologias de rede, como Infiniband de 200 Gb e Ethernet, já comuns em data centers de IA, são adequadas.
O uso de técnicas avançadas de escalonamento e pipeline ajuda a mitigar a latência causada pela arquitetura não uniforme, garantindo que os recursos de memória e computação funcionem simultaneamente sem serem prejudicados por cálculos sequenciais.
Apresentando Lamina
Os pesquisadores desenvolveram a Lamina, um sistema de inferência distribuída heterogênea para LLM que utiliza o offloading de atenção. A Lamina utiliza GPUs de consumidor para armazenar valores de atenção calculados (o “cache KV”) e realizar operações de atenção, enquanto os aceleradores de alto desempenho gerenciam parâmetros do modelo e outras tarefas de inferência. Esses dispositivos podem operar dentro da mesma máquina física ou estarem distribuídos por múltiplos nós.
Ao transferir o armazenamento do cache KV e as computações de atenção para GPUs eficientes em memória, a Lamina consegue lidar com lotes que são de 10,7 a 64 vezes maiores do que os gerenciados pelo vLLM, uma plataforma amplamente utilizada para serviços de LLM. Essa eficiência é crucial para otimizar o uso de aceleradores caros otimizados para computação, especialmente em implantações de LLM em grande escala.
Avaliações experimentais revelam que a Lamina alcança taxas de throughput que são de 1,48 a 12,1 vezes mais altas por custo em comparação com soluções existentes para modelos de 13B e 33B. À medida que os LLMs se tornam populares, as empresas precisarão de estratégias inovadoras para uma inferência econômica e redução de gastos em aceleradores—um objetivo que o offloading de atenção atende com sucesso. Embora os pesquisadores ainda não tenham divulgado o código da Lamina, os fundamentos estão claramente delineados, tornando provável a implementação rápida pela comunidade de código aberto.