大規模言語モデル(LLMs)のファインチューニングは、特定のタスクに合わせたAIのカスタマイズやユーザー体験の向上を目指す企業にとって、不可欠なプロセスとなっています。しかし、ファインチューニングには高い計算リソースとコストが必要であるため、リソースが限られた企業には実施が難しいのが現状です。
これらの課題を解決するため、研究者たちはLLMsのファインチューニングにかかるコストを大幅に削減するアルゴリズムを開発しました。その中でも、スタンフォード大学とカリフォルニア大学バークレー校による最新のイノベーション「S-LoRA」は注目されています。
コスト効果の高いAIの実現
S-LoRAを利用することで、企業はファインチューニングされたLLMsを大幅に低コストで展開できるようになります。これにより、一台のグラフィックス処理装置(GPU)で数百または数千のモデルを同時に稼働することが可能となります。この革新は、これまでコストやリソースの点で実現が難しかった多くのLLMアプリケーションの扉を開きます。
ローランク適応の理解
従来のLLMのファインチューニングは、事前学習済みのモデルを再訓練し、すべてのパラメータを特定のタスクに合わせて修正するプロセスですが、LLMsは数十億のパラメータを持つため、大きな計算リソースを消耗します。パラメーター効率の良いファインチューニング手法(PEFT)、特にローランク適応(LoRA)などは、モデルのパラメータの一部だけを選択的に調整することで、効率的なアプローチを提供します。Microsoftが開発したLoRAは、学習可能なパラメータの数を著しく減少させながらも、フルファインチューニングと同等の精度を維持します。この効率は、メモリや計算リソースの低減につながります。
LoRAの効果によって、事前学習済みのLLMsや拡散モデルに多くのアダプターが作成され、広く採用されています。ファインチューニング後、使用者はLoRAの重みを基本モデルに統合するか、別々に維持することができ、限られたメモリで複数のLoRAアダプターを保持することができます。
S-LoRAの多様な応用
S-LoRAの応用範囲は広く、コンテンツ制作からカスタマーサービスまで多岐にわたります。例えば、ブログプラットフォームはこの技術を利用して、著者の独特なスタイルでコンテンツを生成するファインチューニングされたLLMを提供することができます。
技術的課題の克服
複数のLoRAモデルを一つの基本のLLMの上に展開する際には、いくつかの技術的課題が生じます。特に、GPUのメモリ容量の制限により、基本モデルと一緒に読み込めるアダプターの数が制約されることから、メモリ管理が重要な課題となります。効果的なメモリ管理システムが、スムーズな操作には不可欠です。また、LLMサーバーはバッチ処理を利用してスループットを向上させますが、LoRAアダプターのサイズの違いと、基本モデルとの別々の計算がボトルネックを引き起こすことがあります。
S-LoRAは、GPUとRAMの間でLoRAアダプターを効果的にスワップする動的メモリ管理機能により、これらの課題を解決します。革新的な「統一ページング」メカニズムにより、クエリモデルのキャッシュやアダプターの重みを適切に処理し、サーバーが数百または数千のバッチクエリをメモリの断片化なしで処理できるようにします。
さらに、S-LoRAは最新の「テンソル並列化」システムを採用しており、複数のGPUにまたがる大規模トランスフォーマーモデルとの互換性を確保しています。これらの進歩により、S-LoRAは単一のGPUまたは複数のGPU上で多くのLoRAアダプターをサポートすることが可能となります。
同時に数千のモデルを提供
研究者たちは、さまざまなGPU構成でMetaのオープンソースLlamaモデルの複数のバージョンを使用してS-LoRAを評価しました。結果は、S-LoRAがスループットとメモリ効率を維持する点で優れていることを示しました。パラメーター効率の良いファインチューニングライブラリであるHugging Face PEFTと比較したベンチマークテストでは、S-LoRAはスループットが最大30倍向上しました。また、ベーシックなLoRAサポートを持つ高スループットサービングシステムvLLMと比較した場合、S-LoRAはスループットを4倍に増加させ、並列に処理できるアダプターの数を大幅に増やしました。
S-LoRAの特筆すべき特徴は、最小限の追加計算オーバーヘッドで2,000のアダプターを同時に提供できる点です。スタンフォード大学の大学院生であり、本件の共著者であるYing Shengは、「サービス提供者は、同じ基本モデルを利用しつつ、個別のユーザー向けにアダプターをカスタマイズでき、ユーザー特有のデータで調整可能です」と説明しました。
S-LoRAの設計は文脈内学習にも対応しており、ユーザーが最近のデータを取り入れてLLMの応答を向上させるためのパーソナライズされたアダプターから利益を得られるようになっています。「このアプローチは、従来の文脈内プロンプティングよりも効果的かつコスト効率が良い可能性があります」とShengは述べました。
S-LoRAのコードは現在GitHubで入手可能であり、研究者たちはこの技術を人気のあるLLMサービングフレームワークに統合することを計画しており、企業がS-LoRAを容易にアプリケーションに導入できるようにしています。