革命的なトランスフォーマーアーキテクチャが言語モデルの速度とリソース効率を向上

Home AIニュース革命的なトランスフォーマーアーキテクチャが言語モデルの速度とリソース効率を向上

大規模言語モデルであるChatGPTやLlama-2は、膨大なメモリと計算リソースを必要とし、運用コストが高いことで知られています。モデルサイズのわずかな削減であっても、コストの大幅な削減に繋がります。

この課題に取り組むため、ETHチューリッヒの研究者たちは、言語モデルの基盤である深層学習アーキテクチャ「トランスフォーマー」の革新的なバージョンを発表しました。この新しいデザインは、精度を保ちながらトランスフォーマーのサイズを大幅に削減し、推論速度を向上させることに成功しました。これにより、より効率的な言語モデルの開発に向けた有望なアプローチが示されました。

トランスフォーマーブロックの理解

言語モデルは、テキストのような連続データを処理するための均一なユニットであるトランスフォーマーブロックに依存しています。従来のトランスフォーマーブロックは、2つの重要なコンポーネントから構成されています。それは、アテンションメカニズムと多層パーセプトロン（MLP）です。

アテンションメカニズムは、入力データの一部（文中の単語など）を選択的に強調し、相互の文脈と重要性を捉えます。この機能により、モデルはテキスト内で距離がある単語同士の関係を理解できます。アテンションメカニズムの後には、MLPがあり、ハイライトされた情報をさらに洗練し、複雑な関係性を捉えるためのより高度な表現に変換します。

また、残差接続や正規化層などの追加コンポーネントが学習を強化し、深層ニューラルネットワークの一般的な課題にも対処しています。これらのトランスフォーバーブロックがスタックされることで、複雑な関係性を認識する能力が向上し、現代の言語モデルが実行する高度なタスクが可能になります。しかし、トランスフォーマーブロックの基本設計は、創設時以来、大きな変更がなく使用されてきました。

トランスフォーマーの効率化

ETHチューリッヒの研究者たちは、「現在、大規模トランスフォーマーモデルのトレーニングと運用には非常に高額なコストがかかるため、トランスフォーマーアーキテクチャのトレーニングと推論パイプラインにおける効率向上は、重要なコスト削減の可能性を示します」と述べています。彼らは、トランスフォーマーブロックから非本質的なコンポーネントを取り除くことで、パラメータ数を最小化し、モデルのスループットを向上させることを提案しています。

実験では、トランスフォーマーブロックの簡素化がトレーニング速度や性能を損なわないことが明らかになりました。従来のトランスフォーマーモデルは、各ヘッドが独自のキー（K）、クエリ（Q）、バリュー（V）パラメータを持つ複数のアテンションヘッドを使用しており、これによって入力トークンの関係をマッピングしています。しかし、研究者たちはVパラメータと関連するプロジェクション層を取り除いても効果が落ちないことを発見しました。

さらに、通常は「消失勾配」の問題を防ぐために使用されるスキップ接続も取り除かれました。

新しいトランスフォーマーブロック設計

再設計されたトランスフォーマーブロックでは、アテンションヘッドとMLPを同時に処理し、従来の逐次処理から脱却しました。パラメータ数の削減に対抗するため、非学習可能なパラメータを調整し、トレーニング方法やアーキテクチャに改良を加えました。これらの革新により、よりコンパクトながらもモデルの学習能力が保たれることが確認されました。

改良トランスフォーマーブロックのテスト

ETHチューリッヒチームは、様々な言語モデルの深さにわたってコンパクトなトランスフォーマーブロックを評価し、従来のトランスフォーマーに比べて約16％のサイズ削減を実現しましたが、精度は維持され、推論時間も短縮されました。例えば、1750億パラメータを持つ大規模モデルGPT-3にこのアーキテクチャを適用すると、約50GBのメモリが節約される可能性があります。

研究者たちは、「私たちの簡素化されたモデルは、トレーニングが速くなるだけでなく、より深いモデルが提供する追加の容量をより良く活用します」と述べています。この技術は小規模なモデルで効果を示していますが、大規模モデルへの適用は今後の探求課題となっています。AIプロセッサーをこの簡素化されたアーキテクチャにカスタマイズすることの可能性もあり、影響力を大いに拡大できるかもしれません。

研究者たちは、「私たちの研究が、シンプルなアーキテクチャの実用化に繋がり、深層学習における理論と応用のギャップを埋め、大規模トランスフォーマーモデルに伴うコストを軽減することを信じています」と結論づけています。

Meta AIが新しい「シームレス」翻訳機を発表 - 言語の壁を越えたリアルタイムコミュニケーションを実現

理想的な生成AIデータレイヤーの設計：インテュイットからの重要な洞察

Most people like

SciSummary

239.8K

SciSummaryのAI搭載プラットフォームで、科学記事を迅速に要約し理解しましょう。複雑な研究成果を単純化するために設計された革新的なツールを使って、深い理解と効率的な読書体験をお楽しみください。

AI Summarizer

Bagoodex

204.7K

今日の急速に進化するデジタル世界では、情報を検索する方法が変わりつつあります。AI駆動のウェブ検索やチャットサービスが、ユーザーとテクノロジーの対話方法を変革し、回答を見つける手間を軽減し、迅速化しています。人工知能の能力を活用することで、これらのツールは検索プロセスを簡素化し、ユーザーのエンゲージメントを高め、パーソナライズされた結果やリアルタイムのサポートを提供します。AIが情報取得やコミュニケーションの風景をどのように再構築し、ユーザーがオンラインリソースをこれまで以上に効率的に活用できるようにしているのかを発見してください。

AI検索エンジン AI Search Engine

SkyDeck AI

安全な生成AIソリューションを活用して、創造性と生産性を向上させましょう。

AI AI Productivity Tools

Flux AI

782.3K

画期的なAIプラットフォームを紹介します。手間いらずで魅力的で高品質な画像を簡単に作成できます。この先進的なツールは最先端の技術を活用し、アイデアを視覚的に魅力的なグラフィックに変換します。アーティスト、マーケター、コンテンツクリエイターにとって欠かせないリソースです。私たちのAI駆動の画像生成プラットフォームで、今日からビジュアルコンテンツを高めましょう！

AI画像生成 AI Art Generator

Find AI tools in YBX