來自Microsoft和北航的研究人員開發了一種具有成本效益的技術,用於微調大型語言模型(LLMs),顯著降低了通常的開支。這種新颖的參數高效微調(PEFT)方法名為MoRA,旨在解決現有技術(如低秩適應(LoRA))常見的局限性。MoRA特別適合用於需要模型迅速吸收新知識的任務微調。隨著PEFT策略在企業環境中的逐漸普及,MoRA成為LLM應用開發人員一個有價值的工具。
了解PEFT與LoRA
傳統微調方法需要調整LLM的所有參數,這對於擁有數十億參數的模型來說,往往會造成高昂的成本和龐大的時間消耗。而PEFT技術通過識別進行任務特定調整所需的最小參數子集來優化這一過程。
由於使用低秩矩陣更新參數,LoRA已成為一種流行的PEFT方法,這樣可以減少內存需求,並便於細調模型的存儲和部署。然而,LoRA在處理更複雜的任務(如數學推理和連續預訓練)時表現欠佳,因為其低秩方法限制了模型獲取和保留新信息的能力。研究人員指出:「這一限制影響了通過微調存儲新信息的能力。」
引入MoRA
MoRA通過依賴單一的方形矩陣而非低秩矩陣,改進了LoRA,使得微調過程更加高效。MoRA的關鍵概念是利用可訓練的參數來實現與模型原始維度兼容的最高秩。
不同於LoRA,MoRA的輸入和輸出維度並不與原始模型對齊,這使得簡單的矩陣乘法不再適用。為了解決這一問題,研究人員設計了一個壓縮/解壓函數,以促進兩個空間之間的輸入轉換,讓MoRA能夠順利集成到各種規模的LLM中。與相同大小的LoRA模型相比,方形權重矩陣提升了MoRA學習和記憶新知識的能力。
MoRA的表現
在比較研究中,MoRA在記憶任務上始終超越LoRA,接近完全微調模型的性能,同時使用的參數和訓練步驟更少。研究人員觀察到,MoRA的損失曲線在知識記憶任務上與完全微調表現相當,顯示了其效率。
他們表示:「我們的方法在相同數量的可訓練參數下,對LoRA顯示出顯著的改進,充分受益於高秩更新。」在涉及指令微調和數學推理的任務中,MoRA的性能幾乎達到LoRA的水準。然而,在生物醫學和金融背景下的連續預訓練情境中,MoRA因具有高秩更新能力而表現優異,能夠更好地記憶新信息。研究人員還指出,提升MoRA適配器的秩可以縮小PEFT與完全微調在數學推理任務中的性能差距,但也會增加訓練和存儲需求。
PEFT在企業中的角色
微調對於LLMs在企業應用中至關重要,能夠提升LLMs的能力和準確性,使組織能夠利用較小的模型處理可能需要更高成本的先進模型的任務。目前,LoRA及其變體被視為參數高效微調的基準,並得到一系列強大工具和平台的支持,用於創建LoRA適配器。例如,S-LoRA使開發人員能夠在單一GPU上執行多個LoRA適配器,促進了需要針對個別用戶內容的多個微調LLM的應用。
研究人員已將MoRA作為與LoRA兼容的開源實現提供,將其定位為企業希望用新知識豐富基本模型的重要資源。