大規模言語モデルであるChatGPTやLlama-2は、膨大なメモリと計算リソースを必要とし、運用コストが高いことで知られています。モデルサイズのわずかな削減であっても、コストの大幅な削減に繋がります。
この課題に取り組むため、ETHチューリッヒの研究者たちは、言語モデルの基盤である深層学習アーキテクチャ「トランスフォーマー」の革新的なバージョンを発表しました。この新しいデザインは、精度を保ちながらトランスフォーマーのサイズを大幅に削減し、推論速度を向上させることに成功しました。これにより、より効率的な言語モデルの開発に向けた有望なアプローチが示されました。
トランスフォーマーブロックの理解
言語モデルは、テキストのような連続データを処理するための均一なユニットであるトランスフォーマーブロックに依存しています。従来のトランスフォーマーブロックは、2つの重要なコンポーネントから構成されています。それは、アテンションメカニズムと多層パーセプトロン(MLP)です。
アテンションメカニズムは、入力データの一部(文中の単語など)を選択的に強調し、相互の文脈と重要性を捉えます。この機能により、モデルはテキスト内で距離がある単語同士の関係を理解できます。アテンションメカニズムの後には、MLPがあり、ハイライトされた情報をさらに洗練し、複雑な関係性を捉えるためのより高度な表現に変換します。
また、残差接続や正規化層などの追加コンポーネントが学習を強化し、深層ニューラルネットワークの一般的な課題にも対処しています。これらのトランスフォーバーブロックがスタックされることで、複雑な関係性を認識する能力が向上し、現代の言語モデルが実行する高度なタスクが可能になります。しかし、トランスフォーマーブロックの基本設計は、創設時以来、大きな変更がなく使用されてきました。
トランスフォーマーの効率化
ETHチューリッヒの研究者たちは、「現在、大規模トランスフォーマーモデルのトレーニングと運用には非常に高額なコストがかかるため、トランスフォーマーアーキテクチャのトレーニングと推論パイプラインにおける効率向上は、重要なコスト削減の可能性を示します」と述べています。彼らは、トランスフォーマーブロックから非本質的なコンポーネントを取り除くことで、パラメータ数を最小化し、モデルのスループットを向上させることを提案しています。
実験では、トランスフォーマーブロックの簡素化がトレーニング速度や性能を損なわないことが明らかになりました。従来のトランスフォーマーモデルは、各ヘッドが独自のキー(K)、クエリ(Q)、バリュー(V)パラメータを持つ複数のアテンションヘッドを使用しており、これによって入力トークンの関係をマッピングしています。しかし、研究者たちはVパラメータと関連するプロジェクション層を取り除いても効果が落ちないことを発見しました。
さらに、通常は「消失勾配」の問題を防ぐために使用されるスキップ接続も取り除かれました。
新しいトランスフォーマーブロック設計
再設計されたトランスフォーマーブロックでは、アテンションヘッドとMLPを同時に処理し、従来の逐次処理から脱却しました。パラメータ数の削減に対抗するため、非学習可能なパラメータを調整し、トレーニング方法やアーキテクチャに改良を加えました。これらの革新により、よりコンパクトながらもモデルの学習能力が保たれることが確認されました。
改良トランスフォーマーブロックのテスト
ETHチューリッヒチームは、様々な言語モデルの深さにわたってコンパクトなトランスフォーマーブロックを評価し、従来のトランスフォーマーに比べて約16%のサイズ削減を実現しましたが、精度は維持され、推論時間も短縮されました。例えば、1750億パラメータを持つ大規模モデルGPT-3にこのアーキテクチャを適用すると、約50GBのメモリが節約される可能性があります。
研究者たちは、「私たちの簡素化されたモデルは、トレーニングが速くなるだけでなく、より深いモデルが提供する追加の容量をより良く活用します」と述べています。この技術は小規模なモデルで効果を示していますが、大規模モデルへの適用は今後の探求課題となっています。AIプロセッサーをこの簡素化されたアーキテクチャにカスタマイズすることの可能性もあり、影響力を大いに拡大できるかもしれません。
研究者たちは、「私たちの研究が、シンプルなアーキテクチャの実用化に繋がり、深層学習における理論と応用のギャップを埋め、大規模トランスフォーマーモデルに伴うコストを軽減することを信じています」と結論づけています。