最近,清华大学的研究人员进行了一项研究,强调了重新排列大型语言模型(LLM)的计算和硬件配置可以显著降低推理成本。他们提出了一种名为“注意力卸载”的技术,利用经济实惠的GPU处理内存密集型任务,从而使高性能加速器专注于计算密集型操作。
随着高端人工智能加速器的成本高昂且供不应求,注意力卸载为企业在大规模部署LLM时优化硬件资源创造了机会。
计算的两种类型
LLM推理涉及多种操作,需要战略性地组织以充分利用可用的内存和处理能力。这些操作主要分为两类:计算密集型和内存密集型。计算密集型操作受益于如A100和H100等更快的加速器,而内存密集型操作,尤其是每个新令牌触发的自注意力机制,则需要大量视频内存(VRAM)。
研究人员指出:“这种内存密集型的负载与现代加速器的优势相矛盾,导致内存控制器超负荷运转,而计算核心却处于空闲状态。”随着序列长度的增加,例如在与模型进行扩展对话时,资源不平衡的问题愈加严重。
创新解决方案:注意力卸载
当前的方法通常集中于扩展统一架构的高端加速器进行推理。企业往往重金投资H100处理器来扩大其推理能力,导致成本上涨和硬件使用效率低下。
研究人员认为:“LLM生成阶段的独特需求需要异构架构以提高效率并降低成本。”他们的研究表明,不同类型的加速器适用于LLM推理的特定方面。例如,消费级GPU在内存密集任务中是经济的选择,相比高端模型,其每美元提供三倍的内存容量和带宽。然而,仅依赖这些低成本选项可能效率低下,因为它们的计算能力有限。
然而,注意力计算具有高度并行性,可以在多个经济高效的内存节省型GPU之间分配。
实施异构架构
注意力卸载技术涉及创建两组不同的加速器:一组专注于计算能力,另一组则优化内存带宽。这样,注意力任务由低成本GPU处理,而高端加速器则管理其他操作。
研究人员解释道:“这种异构架构支持一个有效整合计算能力、内存容量和带宽的服务系统,从而提升LLM推理效率,避免过高成本。”这种硬件强项与操作需求之间的战略匹配,使企业能够通过投资于平衡的内存和计算优化加速器来最大化预算。
解决架构挑战
研究进一步评估了与这种异构架构相关的挑战,特别是连接两组加速器所需的带宽。研究结果表明,标准系统总线如PCIe 4.0足以满足需求,而200Gb Infiniband和以太网等网络技术,也在AI数据中心中广泛应用,同样适用。
利用高级调度和流水线技术可以减轻非统一架构带来的延迟,确保内存和计算资源同时运作,而不受顺序计算的影响。
引入Lamina
研究人员开发了Lamina,这是一种分布式异构LLM推理系统,采用注意力卸载。Lamina利用消费级GPU存储计算的注意力值(“KV缓存”)并执行注意力操作,而高端加速器则管理模型参数和其他推理任务。这些设备可以在同一物理机内运行,也可以分布在多个节点上。
通过将KV缓存存储和注意力计算转移到内存高效的GPU上,Lamina可以处理10.7到64倍于vLLM(广泛使用的LLM服务平台)所管理的批次。这种高效性对于在大规模LLM部署中充分利用昂贵的计算优化加速器至关重要。
实验评估显示,Lamina在13B和33B模型上的每单位成本吞吐量提高了1.48至12.1倍。这使得在LLM日益普及的情况下,企业需要创新策略以实现经济高效的推理和降低加速器的资本支出,而注意力卸载正好满足了这一目标。尽管研究人员尚未发布Lamina的代码,但其基本原理已经明确,预计将迅速吸引开源社区的实施。