Nvidia 的 Llama-3.1-Minitron 4B：一款超越預期的強大小型語言模型

Home AI新聞 Nvidia 的 Llama-3.1-Minitron 4B：一款超越預期的強大小型語言模型

在科技公司迅速推出嵌入式人工智慧的競賽中，針對資源有限設備優化的小型語言模型（SLMs）的研究正快速擴展。Nvidia最近的突破性成果推出了Llama-3.1-Minitron 4B，這是一個壓縮版本的Llama 3模型，採用了先進的修剪和蒸餾技術。這個新模型不僅能與更大型的模型抗衡，還提供了更高效的訓練和部署過程。

理解修剪與蒸餾

修剪和蒸餾是開發更小且更高效語言模型的關鍵技術。修剪通過移除次要組件來簡化模型：「深度修剪」會消除整層結構，而「寬度修剪」則會丟棄特定元素，如神經元和注意力頭。模型蒸餾則是將知識從較大的“教師模型”轉移到較簡單的“學生模型”。主要有兩種方法：

1. SGD訓練：學生模型學習教師的輸入與反應。

2. 傳統知識蒸餾：在此方法中，學生不僅從最終輸出學習，還從教師模型的中間激活過程中獲取知識。

早期的Nvidia研究將修剪與傳統知識蒸餾結合，將Nemotron 15B模型精簡到80億個參數的模型。隨後將原始模型蒸餾到修剪版，最終創造出一個小型的4B模型，在MMLU基準測試中提升了16%的性能，並且訓練所需的標記數量較從零開始少了40倍。

Llama 3.1-Minitron的開發

Nvidia利用其過往的技術，將相同的方法應用於Llama 3.1 8B模型，開發出能與更大型模型競爭的4億參數版。這一過程始於在一個94億標記的綜合數據集上對未經修剪的8B模型進行微調，以解決在蒸餾過程中阻礙指導的分佈變化。隨後，採用了兩種類型的修剪：僅進行深度修剪，將模型層數減少50%；僅進行寬度修剪，移除了某些稠密層中50%的神經元。這些調整使得Llama-3.1-Minitron 4B模型產出了兩個不同版本。

修剪後的模型使用NeMo-Aligner進行微調，這是一個配備多種對齊算法的工具包，包括來自人類反饋的強化學習（RLHF）及Nvidia的SteerLM。

性能結果

Nvidia對Llama-3.1-Minitron 4B模型在指令跟隨、角色扮演、檢索增強生成和函數調用等任務上進行了評估。儘管訓練數據集較小，Llama-3.1-Minitron 4B仍展現出與其他SLMs如Phi-2 2.7B和Gemma2 2.6B相當的性能，且其規模明顯更大。這凸顯了訓練成本與推理效率之間的引人注目的權衡。

經過寬度修剪的模型目前在Hugging Face上以Nvidia開放模型許可證發布，促進了開發者的更廣泛使用與商業應用。Nvidia強調：“修剪和傳統知識蒸餾是創造更小且高準確度的大型語言模型的成本效益方案，遠勝於傳統方法。”這項工作突顯了開源社群在推動人工智慧發展中的關鍵作用，展示了修剪和蒸餾策略如何在降低成本的同時優化LLMs。其他創新努力，例如Sakana AI的演化模型合併算法，進一步強調了在AI領域低成本訓練解決方案的潛力。

印度如何利用 Nvidia 加速計算技術來優化收費站交通管理

解鎖 GPT-4o 的微調功能：即日起至 9 月 23 日，每日免費獲得 100 萬個代幣！

Most people like

SlideAI

38.9K

您是否時間緊迫卻需要呈現引人入勝的演示文稿？憑藉我們的創新工具，您可以在幾分鐘內製作出令人驚豔的演示。告別漫長的準備時間，迎接充滿活力的專業幻燈片，吸引觀眾的目光。探索如何輕鬆將您的想法轉化為視覺吸引力強的演示，而不妥協品質。

人工智慧驅動 AI Presentation Generator

Framedrop

180.1K

您是否在尋找一款能輕鬆將視頻轉換為引人入勝的短格式內容的AI工具？探索這個創新的解決方案如何提升您的視頻營銷策略，簡化內容創建流程，並有效地吸引您的觀眾。了解使用AI技術將長視頻轉換為簡潔、富有影響力的片段，讓觀眾產生共鳴的優勢。

AI 精華 AI Repurpose Assistant

Elium

17.3K

在當今快節奏的數位環境中，知識分享平台在發揮集體智慧方面扮演著至關重要的角色。這些平台提供一個集中空間，使個人和組織能夠交流思想和資源，從而促進合作和創新。這不僅使使用者能夠獲取多元的見解，還驅動了明智的決策和有效的問題解決。讓我們一起探討一個強大的知識分享平台如何提升集體智慧，並改變我們合作學習和工作的方式。

知識分享平台 AI Knowledge Management

HeraHaven

680.4K

釋放你隱藏的渴望：探索你心中私藏的幻想

AI 女友 AI Girlfriend

Find AI tools in YBX