注意力外包如何在大規模下降低大型語言模型推理成本

最近,清華大學的研究人員的一項研究強調,重新安排大型語言模型(LLMs)的計算和硬體配置能顯著降低推理成本。他們提出了一種名為“注意力卸載”的技術,利用成本效益高的GPU處理記憶體密集型任務,讓高性能加速器專注於計算密集型操作。

由於高端人工智慧加速器價格昂貴、稀缺且需求量大,注意力卸載為企業在大規模部署LLMs時提供了優化硬體資源的機會。

兩種計算類型

LLM的推理涉及各種操作,這些操作需經過戰略性組織,以充分利用可用的記憶體和處理能力。這些操作可分為兩種類型:計算密集型和記憶體密集型。計算密集型操作受益於如A100和H100等快速加速器,而記憶體密集型操作,特別是每當新令牌觸發的自注意力機制,則需要大量的顯示記憶體(VRAM)。

研究人員指出,“這種記憶體密集型的工作負載與現代加速器的優勢發生衝突,導致記憶體控制器超負荷運行,而計算核心處於閒置狀態。”隨著序列長度的增加,例如在與模型的長時間對話中,這種資源失衡問題會惡化。

創新的解決方案:注意力卸載

當前的方法通常集中於擴展高端加速器的均勻架構以進行推理。企業經常重金投資H100處理器以擴大推理能力,從而導致成本膨脹和硬體利用不佳。研究人員主張,“LLM生成階段的獨特需求需要異構架構,以提升效率並降低成本。”

他們的研究顯示,不同類型的加速器適合LLM推理的特定側面。例如,消費級GPU是記憶體密集型任務的經濟選擇,相比高端模型,每美元提供三倍的記憶體容量和帶寬。然而,單純依賴這些低成本選項在計算能力有限的情況下可能會造成效率低下。

然而,注意力計算是高度可並行化的,可以在多個經濟型、記憶體高效的GPU中分布。

實施異構架構

注意力卸載技術涉及創建兩個不同的加速器集群:一個專注於計算能力,另一個則優化記憶體帶寬。這樣,注意力任務由低成本GPU處理,而高端加速器則負責其他操作。

研究人員解釋說,“這種異構架構允許一個服務系統高效結合計算能力、記憶體容量和帶寬,增強LLM的推理,而不會產生過高的成本。”

這種硬體優勢與操作需求的戰略性整合,使企業能夠通過投資於記憶體和計算優化加速器的平衡組合來最大化預算。

解決架構挑戰

研究進一步評估了與這種異構架構相關的挑戰,特別是連接兩個加速器集群所需的帶寬。研究結果表明,不僅標準系統總線如PCIe 4.0足以應對,現有於AI數據中心的200Gb Infiniband和以太網網路技術也同樣適用。

利用先進的排程和管道技術可減輕由於非均勻架構引起的延遲,確保記憶體和計算資源能同時運行,而不會受到序列計算的拖累。

介紹Lamina

研究人員開發了Lamina,這是一種分佈式異構LLM推理系統,採用注意力卸載技術。Lamina利用消費級GPU存儲計算出的注意力值(“KV緩存”)並執行注意力操作,而高端加速器則管理模型參數和其他推理任務。這些設備可以在同一台物理機器內運行,或分散於多個節點中。

通過卸載KV緩存存儲和注意力計算到記憶體高效的GPU,Lamina能夠處理比廣泛使用的LLM服務平台vLLM管理的批次大10.7到64倍的請求。這種效率對於在大型LLM部署中充分利用昂貴的計算優化加速器至關重要。

實驗評估顯示,Lamina在處理13B和33B模型時,每成本的吞吐量率是現有解決方案的1.48至12.1倍。

隨著LLM成為主流,公司將需要創新的策略以實現成本效益的推理,並減少對加速器的資本支出,而注意力卸載成功地解決了這一目標。儘管研究人員尚未發布Lamina的代碼,但其基本原理已清晰闡述,預計將吸引開源社群迅速實施。

Most people like

Find AI tools in YBX