英伟达Llama-3.1-Minitron 4B: 超越预期的强大小型语言模型

Home AI News CN 英伟达Llama-3.1-Minitron 4B: 超越预期的强大小型语言模型

随着科技公司竞相推出设备内AI，针对资源受限设备的小型语言模型（SLM）的研究正在快速发展。英伟达最近推出了值得关注的Llama-3.1-Minitron 4B，这是Llama 3模型的压缩版本，采用了先进的剪枝和蒸馏技术。这个新模型不仅能与更大模型竞争，还有助于实现更高效的训练和部署过程。

剪枝与蒸馏的理解

剪枝和蒸馏是开发更小、更高效语言模型的重要技术。剪枝通过去除不太重要的组件来优化模型：深度剪枝会去掉整个层，宽度剪枝则会丢弃特定的元素，如神经元和注意力头。

模型蒸馏是将知识从较大的“教师模型”转移到更简单的“学生模型”。主要有两种方法：

1. SGD训练：学生模型从教师模型的输入和反应中学习。

2. 经典知识蒸馏：学生不仅学习最终输出，还学习教师模型的中间激活。

英伟达之前的研究将剪枝与经典知识蒸馏结合在一起，将Nemotron 15B模型精简到80亿参数模型。随后，从原始模型到剪枝版本的蒸馏进一步创建出4亿参数的小型模型，在MMLU基准测试中提高了16%的性能，同时使用的训练令牌比从头开始训练少了40倍。

Llama 3.1-Minitron的开发

基于之前的技术，英伟达将相同的方法应用于Llama 3.1 8B模型，开发出了一个4亿参数的版本，能够与更大模型竞争。处理的第一步是对未剪枝的8B模型进行微调，使用一套综合的94亿令牌数据集，以解决在蒸馏过程中影响指导的分布变化。

接下来，采用了两种剪枝方式：深度剪枝减少了模型层数50%，宽度剪枝则删除了部分密集层的50%神经元。这些调整产生了两个不同版本的Llama-3.1-Minitron 4B模型。剪枝后的模型使用NeMo-Aligner工具包进行了微调，该工具包含多种对齐算法，包括来自人类反馈的强化学习（RLHF）和英伟达的SteerLM。

性能结果

英伟达对Llama-3.1-Minitron 4B模型进行了多项任务评估，包括指令跟随、角色扮演、增强生成和函数调用。尽管训练数据集较小，Llama-3.1-Minitron 4B的表现与其他SLM（如Phi-2 2.7B和Gemma2 2.6B）相当，同时其参数显著更大。这表明在训练成本和推理效率之间存在有吸引力的权衡。

该模型的宽度剪枝版本现已在Hugging Face上发布，并受到英伟达开放模型许可证的保护，方便更多开发者使用。英伟达强调：“剪枝和经典知识蒸馏是一种创建更小、高精度大型语言模型的经济有效方法，相比传统技术具有更大优势。”此项工作突显了开源社区在推动AI进步中的关键角色，展示了剪枝和蒸馏策略如何优化LLM并降低成本。而其他创新努力，如Sakana AI的进化模型合并算法，进一步彰显了在AI领域中低成本训练解决方案的潜力。

印度如何利用Nvidia加速计算优化收费站交通管理

解锁GPT-4o微调功能：每日至多免费获取100万代币，活动持续至9月23日！