アーコン推論フレームワークがLLMの速度と効率を向上 - コストなしで実現

スタンフォード大学のスケーリングインテリジェンス研究所の研究者たちは、「Archon」という新しい推論フレームワークを発表しました。このフレームワークは、大規模言語モデル(LLM)の応答生成効率を向上させることを目的としています。

Archonは、推論時アーキテクチャ探索(ITAS)アルゴリズムを使用して、追加のトレーニングを必要とせずにLLMの性能を向上させます。このモデルに依存しないオープンソースフレームワークは、大規模および小規模なモデルに簡単に実装できます。Archonは、さまざまな推論技術を活用することで、開発者がAIシステムを構築して応答生成を効率化するのを支援します。スケーリングインテリジェンス研究所によると、これらの技術はモデル開発や推論にかかるコストを大幅に削減できる可能性があります。LLMがより大規模なパラメータと高度な推論へと進化するにつれて、コストが上昇することがある一方で、OpenAIなどの企業は手頃な価格を期待しています。

研究者たちは、Archonが自動的にタスクの一般化を促進するアーキテクチャを生成し、モデルが元のトレーニング範囲を超えた課題に対処できるようにすることを強調しています。「ArchonフレームワークとITASアルゴリズムは、神経アーキテクチャとアーキテクチャ探索の実践からインスパイアされています」と彼らは説明しました。「Archonは、同じ層内のモデルが並行して動作し、後続の層が結果を逐次処理するLLMの層で構成されています。」

これらの層は、生成や融合(例えば線形変換)、応答の精緻化(例えば非線形性)など、さまざまな推論技術を用いて候補応答を修正します。

MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH、およびCodeContestsを含むベンチマークテストでは、ArchonはGPT-4oおよびClaude 3.5 Sonnetを15.1ポイント上回り、オープンソースのLLMを11.2ポイント凌駕しました。

Archonの構成要素

ITASアルゴリズムには、推論技術を実行するいくつかの重要なコンポーネントがあります。

1. Generator(生成器): モデルのための潜在的な回答を生成します。

2. Fuser(融合器): これらの応答を統合し、一貫した回答を作成します。例えば、「フランスの首都はパリです」と「フランスはヨーロッパにあります」という応答を合成し、「ヨーロッパにある国フランスの首都はパリです」とします。

3. Ranker(ランカー): 生成された応答をランク付けします。

4. Critic(批評家): ランク付けされた応答の質を評価します。

5. Verifier(検証者): 論理的一貫性と正確性を確認します。

6. Unit Test Generator and Evaluator(ユニットテスト生成器および評価者): 応答の正確性を確認するための小テストを実施します。

Archonの構造化されたアプローチにより、追加の微調整を必要とせずにLLMの応答の質を迅速に改善できます。

Archonの制限

現在、Archonは70億パラメータ以上のLLM、例えばMetaのCode Llama 70Bとの組み合わせで最も効果を発揮します。この制限は、小型モデルが狭いコンテキストウィンドウのために指示に従う能力が低下するためです。研究では、7BモデルにArchonを適用した際に16%の性能低下が見られました。

さらに、Archonフレームワークを使用したモデルは、シングルターンモデルよりも15.7%劣ります。スタンフォードの研究所は、Archonがチャットボットなどの単一のLLM呼び出しの迅速な応答を必要とするアプリケーションには適していないと指摘しています。アーキテクチャが複数のLLM呼び出しを含むため、単純な問い合わせ応答タスクにはあまり効果的ではありません。ただし、プログラミングや高度なカスタマーサービスのシナリオといった、複雑な指示が要求されるタスクには優れた効果を発揮する可能性があります。

これらの課題にもかかわらず、研究者たちはArchonが推論やトレーニングにおける追加の資本投資なしで高性能なLLMの開発を加速することができると期待しています。

Most people like

Find AI tools in YBX