Googleの革新的手法がLLMに無限の文脈理解を提供

新しい研究が言語モデルに無限の文脈を解放

最近、Googleの研究により、大規模言語モデル(LLM)における画期的な進展—Infini-attentionの導入が明らかになりました。この新しい技術により、LLMは無限の長さのテキストを処理できるようになり、メモリと計算資源を一定に保ちます。

文脈ウィンドウの理解

「文脈ウィンドウ」とは、モデルが同時に処理できるトークンの数を指します。たとえば、ChatGPTとの会話がその文脈ウィンドウを超えると、性能が大幅に低下し、以前のトークンが排除されることがあります。企業が特定のアプリケーション向けにLLMをカスタマイズし、独自の文書や知識をプロンプトに統合する中で、文脈の長さを拡張することが競争優位を得るために重要になっています。

Infini-attention: LLMの革新

Googleの研究者によると、Infini-attentionを利用するモデルは、メモリの消費を増加させることなく、100万以上のトークンを効果的に管理できます。このトレンドは、理論的にはさらに拡張可能です。LLMの基盤となるトランスフォーマーは、従来「二次的複雑性」で動作しており、1,000トークンから2,000トークンに入力サイズを倍増させると、メモリと計算時間が4倍になります。この非効率性は、自己注意メカニズムに起因し、各トークンが他のすべてのトークンと相互作用することから生じます。

これらの制約を緩和するために、以前の研究ではLLMの文脈長を拡張するためのさまざまな方法が提案されました。Infini-attentionは、従来の注意メカニズムと「圧縮メモリ」モジュールを組み合わせ、長期および短期の文脈依存性を効率的に処理します。

Infini-attentionの仕組み

Infini-attentionは、元の注意メカニズムを保持しながら、圧縮メモリを統合し、拡張入力に対応します。入力が文脈長を超えると、モデルは古い注意状態を圧縮メモリに転送し、メモリパラメータを一定に保ちつつ効率を向上させます。最終的な出力は、圧縮メモリとローカル注意を結合して得られます。研究者たちは「この重要な改良により、既存のLLMは継続的な前学習とファインチューニングを通じて無限の文脈に拡張できる」と述べています。

パフォーマンスと応用

Infini-attentionの効果は、長い入力シーケンスに対するベンチマークで評価されました。長い文脈の言語モデリングにおいて、Infini-attentionは優れたパフォーマンスを示し、低いPerplexityスコアを達成—つまり、より高い一貫性を示しながら、メモリの消費を大幅に削減しました。

「パスキーの取得」に関するテストでは、Infini-attentionは100万トークンのテキストからランダムな番号を成功裏に取得し、50万トークンまでのテキストの要約タスクでも他の選択肢を上回る結果を示しました。Googleは具体的なモデルの詳細やコードを公開していませんが、その発見は、同様に数百万トークンに対応するGeminiの観察結果と一致しています。

長文脈LLMの未来

長文脈LLMは、AI研究所の重要な研究分野です。例えば、AnthropicのClaude 3は最大20万トークンに対応し、OpenAIのGPT-4は12万8,000トークンの文脈ウィンドウをサポートしています。

無限文脈LLMの大きな利点の一つは、アプリケーションのカスタマイズが容易になる可能性です。ファインチューニングや情報検索拡張生成(RAG)のような複雑な技術に頼るのではなく、無限文脈モデルは多くの文書を処理し、各クエリに対して最も関連性の高いコンテンツを特定できるでしょう。また、ユーザーはファインチューニングなしで広範な例入力を通じて特定のタスクのパフォーマンスを向上させることができます。

しかし、無限文脈は既存の方法を完全に置き換えるわけではありません。むしろ、エントリーバリアを低下させ、開発者が最小限のエンジニアリング労力でアプリケーションを迅速に試作できるようにします。企業がこれらの進展を採用する中で、LLMパイプラインの最適化は、コスト、スピード、および精度の課題に対処するために依然として重要です。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles