Cómo la descarga de atención reduce los costos de inferencia de LLM a gran escala

Un estudio reciente de investigadores de la Universidad de Tsinghua destaca cómo la reorganización de los cálculos y configuraciones de hardware para los modelos de lenguaje grande (LLMs) puede reducir significativamente los costos de inferencia. Introducen una técnica llamada "descarga de atención", que utiliza GPU económicas para tareas que requieren mucha memoria, permitiendo a los aceleradores de alto rendimiento concentrarse en operaciones que demandan más poder de cómputo.

Dado que los aceleradores de inteligencia artificial de gama alta son costosos, escasos y muy solicitados, la descarga de atención ofrece una oportunidad a las empresas para optimizar sus recursos de hardware al implementar LLMs a gran escala.

Dos Tipos de Cálculos

La inferencia de LLM implica diversas operaciones que deben organizarse estratégicamente para aprovechar al máximo la memoria y las capacidades de procesamiento disponibles. Estas operaciones se pueden clasificar en dos tipos: limitadas por computación y limitadas por memoria. Las operaciones limitadas por computación se benefician de aceleradores más rápidos como el A100 y H100, mientras que las limitadas por memoria, especialmente el mecanismo de autoatención activado por cada nuevo token, requieren una cantidad considerable de memoria de video (VRAM).

Los investigadores señalan: "Esta carga de trabajo limitada por memoria entra en conflicto con las fortalezas de los aceleradores modernos, lo que lleva a controladores de memoria sobrecargados mientras los núcleos computacionales permanecen inactivos." Este desbalance de recursos se agrava con el aumento de la longitud de secuencia, como ocurre durante extensos mensajes del usuario o conversaciones con el modelo.

La Solución Innovadora: Descarga de Atención

Los enfoques actuales se centran típicamente en escalar arquitecturas uniformes de aceleradores de alto rendimiento para la inferencia. Las empresas suelen invertir considerablemente en procesadores H100 para ampliar sus capacidades de inferencia, lo que resulta en costos inflados y un uso subóptimo del hardware.

Los investigadores argumentan: "Las demandas únicas de la fase de generación de LLM requieren una arquitectura heterogénea para mejorar la eficiencia y reducir costos." Su estudio sugiere que diferentes tipos de aceleradores son adecuados para aspectos específicos de la inferencia de LLM. Por ejemplo, las GPU de consumo son opciones económicas para tareas limitadas por memoria, ofreciendo tres veces la capacidad de memoria y el ancho de banda por dólar en comparación con los modelos de gama alta. Sin embargo, depender exclusivamente de estas opciones de menor costo puede ser ineficiente debido a su limitado poder computacional.

Las computaciones de atención, por otro lado, son altamente paralelizables y pueden distribuirse entre múltiples GPU económicas y eficientes en memoria.

Implementando una Arquitectura Heterogénea

La técnica de descarga de atención implica crear dos grupos distintos de aceleradores: uno centrado en capacidades computacionales y otro optimizado para el ancho de banda de memoria. De esta manera, las tareas de atención son manejadas por GPU de menor costo, mientras que los aceleradores de gama alta se encargan de otras operaciones.

Los investigadores explican: "Esta arquitectura heterogénea permite un sistema de servicio que combina de manera eficiente poder computacional, capacidad de memoria y ancho de banda, mejorando la inferencia de LLM sin costos excesivos." Este alineamiento estratégico de fortalezas de hardware con requisitos operativos permite a las empresas maximizar su presupuesto invirtiendo en una combinación equilibrada de aceleradores optimizados para memoria y cómputo.

Abordando Desafíos Arquitectónicos

El estudio también evalúa desafíos asociados con esta arquitectura heterogénea, particularmente el ancho de banda necesario para conectar los dos grupos de aceleradores. Los hallazgos indican que no solo los buses de sistema estándar como PCIe 4.0 son suficientes, sino que tecnologías de red como Infiniband de 200Gb y Ethernet, ya comunes en centros de datos de IA, también son adecuadas.

La utilización de técnicas avanzadas de programación y canalización ayuda a mitigar la latencia causada por la arquitectura no uniforme, asegurando que los recursos de memoria y cómputo trabajen simultáneamente sin ser obstaculizados por cálculos secuenciales.

Presentando Lamina

Los investigadores desarrollaron Lamina, un sistema de inferencia de LLM distribuido y heterogéneo que emplea descarga de atención. Lamina utiliza GPU de consumo para almacenar los valores de atención calculados (el "KV cache") y realizar operaciones de atención, mientras que los aceleradores de gama alta gestionan los parámetros del modelo y otras tareas de inferencia. Estos dispositivos pueden funcionar dentro de la misma máquina física o estar distribuidos entre múltiples nodos.

Al descargar el almacenamiento de KV cache y las computaciones de atención a GPU eficientes en memoria, Lamina puede manejar lotes que son de 10.7 a 64 veces más grandes que los gestionados por vLLM, una plataforma de LLM ampliamente utilizada. Esta eficiencia es crucial para hacer un uso óptimo de aceleradores optimizados para cómputo, especialmente en implementaciones de LLM a gran escala.

Evaluaciones experimentales revelan que Lamina logra tasas de rendimiento que son de 1.48 a 12.1 veces más altas por costo en comparación con soluciones existentes para modelos de 13B y 33B.

A medida que los LLM se vuelven comunes, las empresas necesitarán estrategias innovadoras para la inferencia rentable y la reducción de gastos en aceleradores—un objetivo que la descarga de atención aborda con éxito. Aunque los investigadores aún no han publicado el código de Lamina, los fundamentos están claramente delineados, lo que probablemente atraerá una rápida implementación por parte de la comunidad de código abierto.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles