注意力外包如何降低大规模LLM推理成本

Home AI News CN 注意力外包如何降低大规模LLM推理成本

最近，清华大学的研究人员进行了一项研究，强调了重新排列大型语言模型（LLM）的计算和硬件配置可以显著降低推理成本。他们提出了一种名为“注意力卸载”的技术，利用经济实惠的GPU处理内存密集型任务，从而使高性能加速器专注于计算密集型操作。

随着高端人工智能加速器的成本高昂且供不应求，注意力卸载为企业在大规模部署LLM时优化硬件资源创造了机会。

计算的两种类型

LLM推理涉及多种操作，需要战略性地组织以充分利用可用的内存和处理能力。这些操作主要分为两类：计算密集型和内存密集型。计算密集型操作受益于如A100和H100等更快的加速器，而内存密集型操作，尤其是每个新令牌触发的自注意力机制，则需要大量视频内存（VRAM）。

研究人员指出：“这种内存密集型的负载与现代加速器的优势相矛盾，导致内存控制器超负荷运转，而计算核心却处于空闲状态。”随着序列长度的增加，例如在与模型进行扩展对话时，资源不平衡的问题愈加严重。

创新解决方案：注意力卸载

当前的方法通常集中于扩展统一架构的高端加速器进行推理。企业往往重金投资H100处理器来扩大其推理能力，导致成本上涨和硬件使用效率低下。

研究人员认为：“LLM生成阶段的独特需求需要异构架构以提高效率并降低成本。”他们的研究表明，不同类型的加速器适用于LLM推理的特定方面。例如，消费级GPU在内存密集任务中是经济的选择，相比高端模型，其每美元提供三倍的内存容量和带宽。然而，仅依赖这些低成本选项可能效率低下，因为它们的计算能力有限。

然而，注意力计算具有高度并行性，可以在多个经济高效的内存节省型GPU之间分配。

实施异构架构

注意力卸载技术涉及创建两组不同的加速器：一组专注于计算能力，另一组则优化内存带宽。这样，注意力任务由低成本GPU处理，而高端加速器则管理其他操作。

研究人员解释道：“这种异构架构支持一个有效整合计算能力、内存容量和带宽的服务系统，从而提升LLM推理效率，避免过高成本。”这种硬件强项与操作需求之间的战略匹配，使企业能够通过投资于平衡的内存和计算优化加速器来最大化预算。

解决架构挑战

研究进一步评估了与这种异构架构相关的挑战，特别是连接两组加速器所需的带宽。研究结果表明，标准系统总线如PCIe 4.0足以满足需求，而200Gb Infiniband和以太网等网络技术，也在AI数据中心中广泛应用，同样适用。

利用高级调度和流水线技术可以减轻非统一架构带来的延迟，确保内存和计算资源同时运作，而不受顺序计算的影响。

引入Lamina

研究人员开发了Lamina，这是一种分布式异构LLM推理系统，采用注意力卸载。Lamina利用消费级GPU存储计算的注意力值（“KV缓存”）并执行注意力操作，而高端加速器则管理模型参数和其他推理任务。这些设备可以在同一物理机内运行，也可以分布在多个节点上。

通过将KV缓存存储和注意力计算转移到内存高效的GPU上，Lamina可以处理10.7到64倍于vLLM（广泛使用的LLM服务平台）所管理的批次。这种高效性对于在大规模LLM部署中充分利用昂贵的计算优化加速器至关重要。

实验评估显示，Lamina在13B和33B模型上的每单位成本吞吐量提高了1.48至12.1倍。这使得在LLM日益普及的情况下，企业需要创新策略以实现经济高效的推理和降低加速器的资本支出，而注意力卸载正好满足了这一目标。尽管研究人员尚未发布Lamina的代码，但其基本原理已经明确，预计将迅速吸引开源社区的实施。

谷歌推出Astra项目：旨在理解全球动态并与GPT-4竞争的AI代理

谷歌推出Veo：一款令人惊艳的新一代AI视频模型，与OpenAI的Sora竞争