最近、巨大な言語モデル(LLM)は、数百単語の処理から、同時に数冊の本に相当する内容の管理へと進化しています。この拡張された入力能力は「コンテキストウィンドウ」と呼ばれ、新たなアプリケーションやユースケースを解放し、以前は大きなエンジニアリング努力を必要としたものを可能にしています。
Google DeepMindの研究チームの最近の研究では、拡張されたコンテキストウィンドウを持つLLMの「マニショット」インコンテキストラーニング(ICL)能力が調査されました。研究結果は、数百あるいは数千のトレーニング例を単一のプロンプトに含めることで、モデルのパフォーマンスが大幅に向上すると示しています。従来、このような向上はファインチューニングが必要でした。
ファインチューニングとマニショットICLの違い
ICLは、LLMが推論中に提示された例を使用して新しいタスクを学習する手法です。解決済みの例と対処すべき問題を含むプロンプトを提供します。従来、この手法は「ファーショットラーニング」と呼ばれていました。ファインチューニングがモデルのパラメータを調整するのに対し、ICLはユーザーフレンドリーでアクセスが容易ですが、モデルのコンテキストウィンドウに制約されていました。例えば、GPT-3のコンテキストウィンドウは約2,000トークンで、プロンプトに収められる例の数が限られていました。
現在のモデルは100,000トークン以上を処理でき、Gemini 1.5 Proのようなモデルでは100万トークンを超える処理が可能で、各プロンプトに数百または数千の例を含めることができます。
DeepMindの研究者は、様々なタスクにおけるマニショットICLがLLMのパフォーマンスに与える影響を調査しました。対象には、数学問題解決、質問応答、結果報酬モデル、リソースの少ない言語の翻訳、計画、および感情分析が含まれました。一部のプロンプトには最大8,192のICL例が含まれ、結果は例の追加によってパフォーマンスが向上することを示しました。翻訳タスクでは、Gemini ProのロングショットICLがクルド語とタミル語で記録的な結果を出しました。また、要約タスクでは、マニショットICLのパフォーマンスが専門的にファインチューニングされたモデルと同等であり、コンテキスト例が数十万トークンに達したときに最適な効果を発揮しました。
強化型と無指導型ICL
マニショットICLの主な課題は、特に推論タスクにおいて高品質な人間生成の例を大量に必要とすることです。研究者たちは、この依存を軽減するための二つの戦略を提案しています。
第一の手法「強化ICL」は、人間が作成した例をモデル生成の合理的な説明に置き換えます。LLMは、少数の例やゼロからの思考のプロンプトを使用して、特定の問題に対して複数の合理的説明を作成します。正解を確認するメカニズムで検証された後、これらの回答は問題/合理的な説明の組み合わせからなるICLデータセットを形成します。
第二の手法「無指導型ICL」は、モデルの内在する知識を活用します。このアプローチでは、解決されていない問題のリストとともに特定の問題に対するゼロまたは少数の例のプロンプトを含め、必ずしも人間が作成した回答を必要としません。研究者たちは、LLMがタスクを解決するための必要な知識を持つ場合に、関連するコンテキストを提供することで、問題解決に必要な内部概念に焦点を合わせることができると仮定しています。
研究者は、モデル生成の合理的説明と問題のみのプロンプトが、人間生成の例への依存を軽減できると確認しています。
モデル行動の適応
この研究では、マニショットICLが事前学習のバイアスを克服し、少数のショットICLが苦戦する非自然言語予測タスクを効果的に学習できることも明らかになりました。例えば、研究者は感情分析データセットのラベルを変更し、LLMが訓練中に獲得した感情バイアスに反するようにしました。実験の結果、ICLの例を追加するにつれてパフォーマンスが大幅に改善し、デフォルトのラベルにほぼ匹敵するようになりました。
さらに、マニショットICLは、通常は集中した訓練がなければ難しい線形分類や順序のパリティのタスクにおいてもモデルを再構築するのに成功しました。これは、マニショット学習がLLMの訓練データと一致しない新しいタスクや領域に適応する可能性を示しています。
企業への影響
AIラボがLLMのコンテキストウィンドウの拡張を進める中で、一部の専門家はファインチューニングやリトリーバル強化生成(RAG)などの技術が不要になるかもしれないと示唆しています。企業は、関連情報、例、タスクの指示を含むプロンプトを単に作成すれば済むかもしれません。
しかし、現在のところ、マニショットICLはスケーラブルではありません。毎日数千万回のリクエストを受けるLLMアプリケーションにおいて、各プロンプトを数百例で拡張することは、速度や推論コストに重大な影響を与える可能性があります。
したがって、マニショットICLはLLMアプリケーションの探索的およびプロトタイピングフェーズで貴重なツールとして機能し、開発者がコンテキストウィンドウの制約なしにさまざまなプロンプトエンジニアリング技術を試すことを可能にします。しかし、製品の効率的なスケーリングは、トークン消費を最小化し、より小型で高速、かつコスト効果の高いモデルを使用することに依存します。