微软和北京航空航天大学的研究人员开发了一种经济高效的技术,用于对大型语言模型(LLM)进行微调,显著降低了传统方法的成本。这种新方法被称为MoRA,属于参数高效微调(PEFT)技术,针对现有技术(如低秩适配LoRA)普遍存在的限制进行了改进。MoRA在模型处理需要学习新知识的任务时特别有效,成为企业应用开发者的一个宝贵工具。
理解PEFT与LoRA
传统的微调方法需要调整LLM的所有参数,这在处理数十亿个参数的模型时成本高昂且耗时。然而,PEFT技术通过识别任务特定调整所需的最小参数子集,优化了这一过程。LoRA因其利用低秩矩阵更新参数的能力而成为流行的PEFT方法,从而减少内存占用,方便微调模型的存储和部署。但在更复杂的任务(如数学推理和持续预训练)中,LoRA的低秩方法限制了模型获取和保留新信息的能力。研究人员指出:“这一定限性妨碍了通过微调存储新信息的能力。”
MoRA的介绍
MoRA通过使用单一的方阵而不是低秩矩阵来改进LoRA,从而实现更高效的微调过程。MoRA的核心概念是利用可训练参数,以达到与模型原始维度兼容的最高秩。与LoRA不同,MoRA的输入和输出维度不与原模型对齐,防止了直接的矩阵乘法。为了解决这个问题,研究人员设计了一种压缩/解压缩函数,便于在两个空间之间进行输入转换,使MoRA能够无缝集成到不同规模的LLM中。与等尺寸的LoRA模型相比,方形权重矩阵提升了MoRA学习和记忆新知识的能力。
MoRA的性能
在比较研究中,MoRA在记忆任务上的表现始终优于LoRA,接近完全微调模型的表现,同时使用的参数和训练步骤更少。研究人员观察到,MoRA在知识记忆任务上的损失曲线与完全微调模型非常接近,表明其效率显著。“我们的方法在相同数量的可训练参数下,相比LoRA有显著提高,得益于高秩更新。”他们表示。
在指令调优和数学推理任务中,MoRA的表现接近LoRA。然而,在生物医学和金融领域的持续预训练场景中,由于高秩更新能力,MoRA的表现甚至更佳,有助于新信息的记忆。研究人员还指出,提高MoRA适配器的秩,有可能缩小PEFT与完全微调在数学推理任务中的性能差距,但这会增加训练和存储需求。
PEFT在企业中的重要性
微调对LLM在企业中的应用至关重要。它提升了LLM的能力和准确性,使企业能够利用小型模型完成那些本可能需要更高成本的高级模型的任务。目前,LoRA及其变种被视为参数高效微调的基准,并由强大的工具和平台生态系统支持,如S-LoRA使开发者能够在单个GPU上执行多个LoRA适配器,以便为每个用户内容量身定制多个微调的LLM。研究人员已经将MoRA作为兼容LoRA的开源实现发布,为希望丰富基础模型知识的企业提供了重要资源。