在科技公司迅速推出嵌入式人工智慧的競賽中,針對資源有限設備優化的小型語言模型(SLMs)的研究正快速擴展。Nvidia最近的突破性成果推出了Llama-3.1-Minitron 4B,這是一個壓縮版本的Llama 3模型,採用了先進的修剪和蒸餾技術。這個新模型不僅能與更大型的模型抗衡,還提供了更高效的訓練和部署過程。
理解修剪與蒸餾
修剪和蒸餾是開發更小且更高效語言模型的關鍵技術。修剪通過移除次要組件來簡化模型:「深度修剪」會消除整層結構,而「寬度修剪」則會丟棄特定元素,如神經元和注意力頭。模型蒸餾則是將知識從較大的“教師模型”轉移到較簡單的“學生模型”。主要有兩種方法:
1. SGD訓練:學生模型學習教師的輸入與反應。
2. 傳統知識蒸餾:在此方法中,學生不僅從最終輸出學習,還從教師模型的中間激活過程中獲取知識。
早期的Nvidia研究將修剪與傳統知識蒸餾結合,將Nemotron 15B模型精簡到80億個參數的模型。隨後將原始模型蒸餾到修剪版,最終創造出一個小型的4B模型,在MMLU基準測試中提升了16%的性能,並且訓練所需的標記數量較從零開始少了40倍。
Llama 3.1-Minitron的開發
Nvidia利用其過往的技術,將相同的方法應用於Llama 3.1 8B模型,開發出能與更大型模型競爭的4億參數版。這一過程始於在一個94億標記的綜合數據集上對未經修剪的8B模型進行微調,以解決在蒸餾過程中阻礙指導的分佈變化。隨後,採用了兩種類型的修剪:僅進行深度修剪,將模型層數減少50%;僅進行寬度修剪,移除了某些稠密層中50%的神經元。這些調整使得Llama-3.1-Minitron 4B模型產出了兩個不同版本。
修剪後的模型使用NeMo-Aligner進行微調,這是一個配備多種對齊算法的工具包,包括來自人類反饋的強化學習(RLHF)及Nvidia的SteerLM。
性能結果
Nvidia對Llama-3.1-Minitron 4B模型在指令跟隨、角色扮演、檢索增強生成和函數調用等任務上進行了評估。儘管訓練數據集較小,Llama-3.1-Minitron 4B仍展現出與其他SLMs如Phi-2 2.7B和Gemma2 2.6B相當的性能,且其規模明顯更大。這凸顯了訓練成本與推理效率之間的引人注目的權衡。
經過寬度修剪的模型目前在Hugging Face上以Nvidia開放模型許可證發布,促進了開發者的更廣泛使用與商業應用。Nvidia強調:“修剪和傳統知識蒸餾是創造更小且高準確度的大型語言模型的成本效益方案,遠勝於傳統方法。”這項工作突顯了開源社群在推動人工智慧發展中的關鍵作用,展示了修剪和蒸餾策略如何在降低成本的同時優化LLMs。其他創新努力,例如Sakana AI的演化模型合併算法,進一步強調了在AI領域低成本訓練解決方案的潛力。