Microsoftと北京航空航天大学が発表したMoRA:効率的なLLMファインチューニングのための最先端技術

Microsoftと北京航空航天大学の研究者たちは、大規模言語モデル(LLM)の微調整において、コストを大幅に削減できる新しい手法を開発しました。この手法は「MoRA」と名付けられ、従来の手法でしばしば見られる制限を克服するために設計されたパラメータ効率の良い微調整(PEFT)メソッドです。MoRAは、新たな知識を吸収する必要があるタスクでモデルを微調整する際に特に有利であり、企業のLLMアプリケーション開発者にとって貴重なツールとなります。

PEFTとLoRAの理解

従来の微調整では、LLMのすべてのパラメータを調整する必要があり、大規模なモデルではコストと時間が非常にかかります。PEFT技術は、このプロセスを最小限のパラメータ群を特定して最適化することで効率化します。LoRAは、低ランク行列を用いてパラメータを更新する能力から人気のあるPEFT法となり、メモリ要件を削減し、微調整されたモデルの保存と展開を容易にします。しかし、LoRAは数学的推論や継続的な前訓練といった複雑なタスクでは能力を発揮しづらく、これにより新しい情報の取得や保持が制限されます。

研究者たちは「この制限が、微調整を通じて新しい情報を保持する能力を妨げています」と述べています。

MoRAの導入

MoRAは、低ランク行列の代わりに単一の正方行列を使用することでLoRAを改善し、より効率的な微調整プロセスを実現しています。MoRAの基本概念は、モデルの元々の次元に適合する最高ランクの学習可能なパラメータを活用することです。LoRAとは異なり、MoRAの入出力次元は元のモデルと一致せず、従来の行列積ができないため、研究者たちは二つの空間間の入力変換を容易にする圧縮/解凍関数を考案しました。この正方行列は、同サイズのLoRAモデルに比べ、新たな知識を学習し記憶する能力を高めています。

MoRAのパフォーマンス

比較研究において、MoRAは記憶タスクで常にLoRAを上回り、フル微調整モデルに近い性能を示しながらも、パラメータや訓練ステップを減少させています。研究者たちは、MoRAの損失曲線が知識の記憶タスクにおいてフル微調整と密接に一致していることを観察しました。「我々の方法は、同数の学習可能なパラメータでLoRAに比べて顕著な改善を示し、高ランク更新の恩恵を享受しています」と述べています。

指示チューニングや数学的推論を含むタスクでは、MoRAはLoRAにほぼ匹敵する性能を発揮しましたが、バイオメディカルや金融分野の継続的前訓練シナリオでは、新しい情報を記憶する高ランク更新能力のおかげでMoRAが優れた成果を上げました。また、MoRAアダプターのランクを上げることで、数学的推論タスクにおけるPEFTとフル微調整の間のパフォーマンスギャップを縮小できる可能性がありますが、それには訓練とストレージの需要増加が伴います。

PEFTの企業における役割

微調整は、LLMの企業用途において非常に重要です。これにより、LLMの機能性と精度が向上し、組織は高価な高度なモデルを必要とせずに小型モデルを利用できます。現時点では、LoRAとその派生方法は、パラメータ効率の良い微調整のベンチマークとされており、LoRAアダプターを作成するためのツールとプラットフォームの堅牢なエコシステムによって支えられています。たとえば、S-LoRAは開発者が単一のGPU上で複数のLoRAアダプターを実行できるようにし、個別のユーザーコンテンツに合わせた微調整されたLLMを必要とするアプリケーションを強化します。

研究者たちはMoRAをLoRAと互換性のあるオープンソース実装として提供しており、新しい知識で基盤モデルを強化したい企業にとって重要なリソースと位置付けています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles