スイス連邦工科大学チューリヒ校(ETHチューリヒ)の研究者たちは、ニューラルネットワークの効率を劇的に向上させる革新的な技術を開発しました。この技術によって、推論プロセスが改良され、計算負荷が大幅に軽減されました。
広く使用されているトランスフォーマモデル「BERT」を使用した実験では、計算量が99%以上削減されるという素晴らしい成果が得られました。この最先端の手法は、GPT-3のような大規模言語モデル(LLM)を支えるトランスフォーマモデルにも応用でき、迅速で効率的な言語処理が可能になります。
高速フィードフォワードネットワークの理解
LLMの基盤であるトランスフォーマは、注意層やフィードフォワード層を含む複数の層から成り立っています。フィードフォワード層はモデルのパラメータの大部分を占めるものの、入力の次元全体にわたってすべてのニューロンの積を計算する必要があるため、計算集約的です。
研究者たちは、推論中にフィードフォワード層のすべてのニューロンを活性化する必要はないことを発見しました。これにより、従来のフィードフォワード層の代わりに「高速フィードフォワード(FFF)層」を導入しました。FFFは条件付き行列乗算(CMM)という数学的操作を用いており、従来の密行列乗算(DMM)を置き換えます。DMMはすべての入力パラメータをすべてのニューロンと掛け合わせるのに対し、CMMは各入力に対して一部のニューロンだけを選択的に使用し、処理を効率化します。
FastBERT: 言語処理の革新
研究者たちは、この革新的な技術をテストするために、GoogleのBERTモデルを改良した「FastBERT」を開発しました。FastBERTは、高速フィードフォワード層に標準のフィードフォワード層を置き換え、特定の入力に基づいて一つの枝だけを活性化する均等なバイナリツリー構造でニューロンを編成します。
FastBERTの能力を評価するため、チームは一般言語理解評価(GLUE)基準に基づいてさまざまなモデルを微調整しました。その結果、FastBERTは比較可能なサイズと訓練のベースBERTモデルと同様のパフォーマンスを発揮しました。たった1日、1台のA6000 GPUで微調整されたバリアントでも、BERTのパフォーマンスの96%以上を維持しました。特に、最良のバリアントはBERTの性能を維持しつつ、わずか0.3%のニューロンを使用しました。
研究者たちは、高速フィードフォワードネットワークをLLMに統合することが速度向上の大きな可能性を持っているとしています。例えば、GPT-3の各トランスフォーマ層には49,152のニューロンが含まれていますが、FFFを使用すれば推論中にわずか16のニューロンで最適化でき、GPT-3のニューロンの約0.03%に相当します。
最適化課題への取り組み
密行列乗算はこれまで多大な最適化が進められてきましたが、条件付き行列乗算については同様の進展は見られていません。研究者たちは、「密行列乗算はコンピュータの歴史において最も最適化された数学的操作です」と指摘しています。現在の深層学習フレームワークは、主に高水準シミュレーションを通じてCMMのサポートが限られています。
この研究を進めるため、チームはCMM操作の独自実装を開発し、推論時に印象的な78倍のスピード向上を実現しました。彼らは、より優れたハードウェアと低レベルのアルゴリズム実装の改善により、300倍以上のスピード向上が期待できると考えています。これにより、トークン生成の迅速化という言語モデルにおける重要な課題への対応が可能になります。
結論
BERTベースモデルの理論的なスピードアップが341倍に達する可能性は、この研究の革新性を示しています。研究者たちは、デバイスプログラミングインターフェース内で条件付きニューロン実行プリミティブのさらなる開発を促進したいと考えています。この研究は、LLMのメモリと計算の制限に対処するための重要なステップであり、より効率的かつ堅牢なAIシステムの発展を促進します。