随着科技公司竞相推出设备内AI,针对资源受限设备的小型语言模型(SLM)的研究正在快速发展。英伟达最近推出了值得关注的Llama-3.1-Minitron 4B,这是Llama 3模型的压缩版本,采用了先进的剪枝和蒸馏技术。这个新模型不仅能与更大模型竞争,还有助于实现更高效的训练和部署过程。
剪枝与蒸馏的理解
剪枝和蒸馏是开发更小、更高效语言模型的重要技术。剪枝通过去除不太重要的组件来优化模型:深度剪枝会去掉整个层,宽度剪枝则会丢弃特定的元素,如神经元和注意力头。
模型蒸馏是将知识从较大的“教师模型”转移到更简单的“学生模型”。主要有两种方法:
1. SGD训练:学生模型从教师模型的输入和反应中学习。
2. 经典知识蒸馏:学生不仅学习最终输出,还学习教师模型的中间激活。
英伟达之前的研究将剪枝与经典知识蒸馏结合在一起,将Nemotron 15B模型精简到80亿参数模型。随后,从原始模型到剪枝版本的蒸馏进一步创建出4亿参数的小型模型,在MMLU基准测试中提高了16%的性能,同时使用的训练令牌比从头开始训练少了40倍。
Llama 3.1-Minitron的开发
基于之前的技术,英伟达将相同的方法应用于Llama 3.1 8B模型,开发出了一个4亿参数的版本,能够与更大模型竞争。处理的第一步是对未剪枝的8B模型进行微调,使用一套综合的94亿令牌数据集,以解决在蒸馏过程中影响指导的分布变化。
接下来,采用了两种剪枝方式:深度剪枝减少了模型层数50%,宽度剪枝则删除了部分密集层的50%神经元。这些调整产生了两个不同版本的Llama-3.1-Minitron 4B模型。剪枝后的模型使用NeMo-Aligner工具包进行了微调,该工具包含多种对齐算法,包括来自人类反馈的强化学习(RLHF)和英伟达的SteerLM。
性能结果
英伟达对Llama-3.1-Minitron 4B模型进行了多项任务评估,包括指令跟随、角色扮演、增强生成和函数调用。尽管训练数据集较小,Llama-3.1-Minitron 4B的表现与其他SLM(如Phi-2 2.7B和Gemma2 2.6B)相当,同时其参数显著更大。这表明在训练成本和推理效率之间存在有吸引力的权衡。
该模型的宽度剪枝版本现已在Hugging Face上发布,并受到英伟达开放模型许可证的保护,方便更多开发者使用。英伟达强调:“剪枝和经典知识蒸馏是一种创建更小、高精度大型语言模型的经济有效方法,相比传统技术具有更大优势。”此项工作突显了开源社区在推动AI进步中的关键角色,展示了剪枝和蒸馏策略如何优化LLM并降低成本。而其他创新努力,如Sakana AI的进化模型合并算法,进一步彰显了在AI领域中低成本训练解决方案的潜力。