革命性變壓器架構:在不使用GPU的情況下釋放強大的大型語言模型(LLMs)

無矩陣乘法的語言模型:效率的突破

在使用Transformer架構的大型語言模型(LLMs)中,矩陣乘法(MatMul)是計算最耗資的操作。隨著模型規模的擴大,MatMul操作的成本顯著上升,導致訓練和推理時的記憶體使用量與延遲增加。

來自加利福尼亞大學聖克魯斯分校、蘇州大學及加利福尼亞大學戴維斯分校的研究人員開發出一種創新架構,消除了語言模型中的矩陣乘法,同時在大規模下仍能提供卓越性能。

介紹無MatMul語言模型

在他們的突破性論文中,研究人員提出無MatMul語言模型,這些模型在推理時的性能可匹配最先進的Transformer,但所需的記憶體顯著減少。

深入了解深度學習中的矩陣乘法

在深度學習中,矩陣乘法對於將數據與神經網絡中的權重結合至關重要,使得輸入數據轉換為預測變得可行。由於其並行架構,GPU在同時執行大量MatMul操作方面表現突出,這對於高效訓練和部署複雜模型至關重要。

然而,隨著LLMs擴展到數百億個參數,MatMul操作成為瓶頸,迫使訓練和推理需使用巨型GPU集群。擺脫MatMul有望大幅節省記憶體和運算資源,但過去嘗試替代MatMul的努力常常因GPU性能不佳而導致過程延遲。

用三元權重革新運算

研究人員提出了一個令人振奮的替代方案:用能表示三個狀態(-1、0和+1)的3位三元權重替代傳統的16位浮點權重。他們引入了加法操作來取代MatMul,從而顯著降低計算成本。他們的模型使用“BitLinear層”來利用這些三元權重。

“通過將權重限制在{-1, 0, +1}這一集合中,並應用其他量化技術,我們已經用加法和取相反數的操作替代了MatMul,”研究人員解釋道。

創新的架構變更

這一架構與傳統Transformer有根本不同,後者由標記和通道混合器組成。負責通過自注意力機制整合序列標記信息的標記混合器,過渡到無MatMul的線性門控循環單元(MLGRU)。MLGRU通過簡單的三元操作更新隱藏狀態,從而避開高成本的矩陣乘法。

此外,通道混合器通過修改過的門控線性單元(GLU)整合標記表示中不同特徵通道的信息,並適用三元權重。這一調整在保持有效特徵整合的同時,降低了計算複雜度和記憶體使用。

“通過將MLGRU標記混合器與使用三元權重的GLU通道混合器結合,我們的架構僅依賴於加法和逐元素乘法,”研究人員指出。

無MatMul語言模型的性能評估

研究人員將他們的無MatMul語言模型與用於Llama-2的先進Transformer++架構進行對比,涵蓋多種模型大小。他們的研究結果顯示,無MatMul模型有效利用額外計算資源提升性能,相較於Transformer++。

在語言任務評估中,2.7B無MatMul模型在ARC-Challenge和OpenbookQA等基準上的表現優於其Transformer++對手,同時在其他任務中也達到相似水平。

“這些結果證明,無MatMul架構在多種語言任務中能實現強大的零-shot性能,包括問答和常識推理,”研究人員表示。

隨著模型尺寸的增大,無MatMul模型的低記憶體消耗和延遲更為明顯。例如,13B模型只需4.19 GB的GPU記憶體,延遲695.48毫秒,而Transformer++則需要48.50 GB的記憶體,延遲達3183.10毫秒。

優化實現與未來方向

研究人員為無MatMul語言模型開發了優化的GPU實現和定制的FPGA配置。通過這一優化,他們在訓練上實現了25.6%的加速,相較於未優化基準,其記憶體使用量降低了61.0%。

“這項工作超越了僅基於軟件的輕量模型實現,證明了可擴展和高效的語言模型能有效減少計算需求和能源消耗,”研究人員總結道。

儘管受限於對超過1000億參數模型的測試,研究人員希望鼓勵機構投資輕量模型,為更易於訪問的語言模型鋪平道路,這些模型無需高端GPU。研究人員已向研究界提供其代碼和模型。

“通過優先發展無MatMul架構,未來的LLMs將趨向於更高的可及性,效率和可持續性,”研究人員倡導道。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles