NvidiaのLlama-3.1-Minitron 4B：期待を超える強力な小型言語モデル

Home AIニュース NvidiaのLlama-3.1-Minitron 4B：期待を超える強力な小型言語モデル

テクノロジー企業がデバイス上のAI実現に向けて競い合う中、リソースが制約されたデバイス向けに最適化された小型言語モデル（SLM）に関する研究が急速に進展しています。最近、Nvidiaが発表したLlama-3.1-Minitron 4Bは、この分野での大きなブレークスルーです。このモデルは、Llama 3の圧縮版であり、高度なプルーニングと蒸留技術を活用しています。この新しいモデルは、より大きなモデルに匹敵するだけでなく、トレーニングや展開プロセスも効率化しています。

プルーニングと蒸留の理解

プルーニングと蒸留は、小型で効率的な言語モデルを開発するために重要な技術です。プルーニングでは、重要度が低い要素を取り除きます。「深さプルーニング」は完全な層を除去し、「幅プルーニング」はニューロンやアテンションヘッドなど特定の要素を削減します。

モデルの蒸留は、大型の「教師モデル」からより簡素な「生徒モデル」へ知識を移転するプロセスです。主なアプローチは二つあります：

1. SGDトレーニング：生徒モデルは教師の入力と応答から学習します。

2. 従来の知識蒸留：この方法では、生徒は教師モデルの最終出力だけでなく、中間活性状態からも学習します。

Nvidiaの以前の研究では、プルーニングと従来の知識蒸留を組み合わせ、Nemotron 15Bモデルを80億パラメータにまで洗練しました。このプロセスを通じて、モデルの蒸留が行われ、4Bモデルに縮小され、MMLUベンチマークで16%の性能向上を実現しました。さらに、初期モデルからスタートするよりも40倍少ないトレーニングトークンで効果を上げています。

Llama 3.1-Minitronの開発

Nvidiaは、前回の技術を基に、Llama 3.1 8Bモデルに同様の方法を適用し、競争力のある4億パラメータ版を作成しました。最初に、94億トークンのデータセットで未プルーニングの8Bモデルをファインチューニングし、蒸留時のガイダンスを妨げる分布のシフトに対処しました。

次に、深さプルーニングと幅プルーニングの二つの形式を用いて、それぞれ50%の層とニューロンを削減しました。この調整により、Llama-3.1-Minitron 4Bモデルの二つの異なるバージョンが生成されました。

プルーニングされたモデルは、NeMo-Alignerというツールキットを使用してファインチューニングされました。このツールキットには、人間のフィードバックからの強化学習（RLHF）やNvidiaのSteerLMなど、さまざまな整合性アルゴリズムが含まれています。

パフォーマンス結果

Nvidiaは、Llama-3.1-Minitron 4Bモデルを、指示に従うタスク、ロールプレイ、リトリーバル強化生成、関数呼び出しなどの実験において評価しました。少ないトレーニングデータセットにもかかわらず、Llama-3.1-Minitron 4Bは、Phi-2 2.7BやGemma2 2.6Bのような他のSLMと同等の性能を発揮し、なおかつパフォーマンスが向上しました。このことは、トレーニングコストと推論効率の間に魅力的なトレードオフがあることを示しています。

幅プルーニングされたバージョンは、Hugging Face上でNvidia Open Model Licenseの下で公開され、開発者による広範なアクセスと商業利用を促進しています。

Nvidiaは、「プルーニングと従来の知識蒸留は、従来の方法と比較して小型で高精度の大規模言語モデルを作成するためのコスト効率の良い手段です」と強調しています。この研究は、AIの進歩におけるオープンソースコミュニティの重要な役割を強調し、プルーニングと蒸留戦略がLLMを最適化しながらコストを最小化できる様子を示しています。また、Sakana AIの進化的モデル統合アルゴリズムなどの他の革新的な取り組みも、AI分野における低コストトレーニングソリューションの可能性を際立たせています。

インドがNvidiaの加速コンピューティングを活用して料金所交通管理を効率化する方法

GPT-4oのファインチューニングを解放！9月23日まで毎日100万トークンを無料で楽しもう！