Meta、Megalodon LLMを発表 - トランスフォーマーアーキテクチャの革新を目指す

Meta社と南カリフォルニア大学の研究者によって開発された新たな機械学習モデル「Megalodon」は、トランスフォーマーアーキテクチャに関連する重要な課題を解決します。このアーキテクチャは、大規模言語モデル(LLM)の進展において重要な役割を果たしています。

Megalodonは、数百万のトークンまでのコンテキストウィンドウを大幅に拡張し、メモリ使用量を最小限に抑えます。実験結果から、Megalodonは広範なテキスト処理において類似のトランスフォーマーモデルを凌駕することが示されています。この開発により、Megalodonはトランスフォーマーアーキテクチャの後継候補として位置づけられています。

コンテキストウィンドウの理解

「コンテキストウィンドウ」とは、モデルが同時に処理できるトークンの数を指します。広いコンテキストウィンドウは、LLMの長い会話の進行、より大規模な文書の分析、文脈内学習の向上に寄与します。ただし、トランスフォーマーのコンテキストウィンドウを拡大することは、計算コストが大きくなります。

トランスフォーマーは「二次複雑性」で動作しており、入力サイズが倍増すると、メモリと計算時間がそれぞれ四倍になります。この関係は、すべての入力シーケンス要素が互いに比較される自己注意機構に起因しています。

MetaのMegalodonは、2022年に導入された「移動平均付きゲート注意(MEGA)」技術に基づいており、注意機構を最適化してモデルの複雑さを大幅に削減しています。これにより、LLMは過剰なメモリ要求なしに長い入力を扱うことが可能になります。MEGAは指数移動平均(EMA)を取り入れることで、局所トークンと長距離トークンの関係の重要性をバランスよく保ち、文脈が拡大しても一貫性を保ちます。

Megalodonの主な革新

Megalodonは、複数のアーキテクチャの変更を通じてMEGAを強化し、トランスフォーマーの従来の全注意機構と整合性を持たせています。「チャンク単位の注意」を取り入れ、入力シーケンスを固定ブロックに分けることにより、複雑性を二次から線形に変換します。このアプローチはさらなる並列処理を促進し、モデルのトレーニングを加速させます。

研究者たちは、70億パラメータのMegalodonを2兆トークンでトレーニングし、Llama-2-7Bおよび13Bモデルと比較しました。その結果、Megalodon-7BはLlama-2-7Bのトレーニングに使用されている最新のトランスフォーマーを凌駕し、トレーニングの驚異度やさまざまな下流タスクで優れた結果を示しました。特に、いくつかのケースではLlama-2-13Bのパフォーマンスに匹敵しました。

Megalodonは、Llama-2よりもやや遅いペースで4,000トークンのコンテキストウィンドウを維持していますが、32,000トークンのコンテキスト長では計算効率が向上し、顕著な成果を上げています。初期の実験結果から、Megalodonは無限の長さのシーケンスも効果的にモデル化できる可能性があります。

研究チームは、さまざまなデータモダリティにおいて小規模実験でも有望な結果を得ており、Megalodonをマルチモーダルアプリケーション用に適応させる計画を立てています。MegalodonのコードはGitHubでMITライセンスの下で利用可能で、無制限の適応と商業利用ができます。

トランスフォーマーの優位性

代替アーキテクチャの探求が続く中、AI21 Labsによる商業利用されるMambaやMITで開発された液体ニューラルネットワークなどを挙げても、トランスフォーマーは依然として言語モデルの主導的なアーキテクチャとして位置づけられています。Metaは、Megalodonのようなモデルで革新を進めつつ、最近リリースされたLlama-3を含むトランスフォーマーラインナップの強化にも取り組んでいます。

トランスフォーマー用の広範なツールとライブラリのエコシステムに適応する新しいアーキテクチャの調整は依然として困難です。これらのツールは、モデルのトレーニング、ファインチューニング、最適化を多様なアプリケーションやデバイス向けに促進し、トランスフォーマーを優位に保っています。

研究者たちは、トランスフォーマーアーキテクチャの計算要求を軽減するための修正も行っています。例えば、GoogleのInfini-attentionは、メモリ要件を引き上げることなく無限のコンテキストウィンドウをサポートすることを目指しており、現在のモデルは数十万トークンの入力に対応しています。

AI研究が急速に進化する中で、変化する環境を認識することが重要です。2017年にトランスフォーマーが導入された際、その深い影響を予測できた人は少なかったでしょう。未来のモデルは、トランスフォーマーを能力で超える可能性を秘めています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles