大規模言語モデル(LLM)は、複雑なタスクの処理能力が向上していますが、初めの試行で正確な回答を提供することにしばしば苦労しています。このため、誤りを特定して修正する能力を高める「自己修正」に対する関心が高まっています。しかし、既存の自己修正手法には限界があり、現実の要件を満たすことができないことが多いです。
Google DeepMindの研究者たちは、「自己修正による強化学習(SCoRe)」という画期的なアプローチを導入しました。これは、自己生成データのみを使用してLLMの自己修正能力を大幅に向上させる新しい方法です。SCoReは、LLMの信頼性と堅牢性を高め、推論や問題解決能力の向上に新たな道を開く可能性があります。
「自己修正は、人間の思考を大いに向上させます」とGoogle DeepMindの研究科学者アヴィラル・クマールは述べています。「人間はしばしば複数のアイデアを考え、誤りを修正しながら、最終的に正しい解決策にたどり着きます。我々はLLMにも同じことをしてほしいのです。」
理想的なLLMは、自己修正能力が強く、自身の応答を評価・洗練し、正しい答えに到達できるべきです。これは重要です。なぜなら、LLMは問題を解決するための必要な知識を持っていても、初回の応答でそれを効果的に活用することが難しいからです。
「基本的な機械学習の視点から、我々はLLMが複雑な問題を一度の試行で解決することを期待していません」とクマールは説明します。「したがって、LLMには、考え続けて自己修正するためにより多くの計算リソースを投入してほしいのです。」
従来の自己修正の試みは、プロンプト工程やモデルの微調整に依存しており、通常は外部からのフィードバックや“オラクル”のガイダンスを必要とします。これらの手法は、モデルの本来の自己修正能力を軽視しがちです。例えば、監視された微調整(SFT)法は人間のアノテーターやより強力なモデルからのフィードバックに依存しており、現実のシナリオでの適用が制限されます。さらに、SFT法は、推論中にモデルを複数必要とする場合があり、デプロイが複雑になります。
DeepMindの研究によれば、SFTはモデルの初期出力を向上させることはできますが、モデルが数回のステップで回答を修正しなければならない場合には不十分です。「訓練の終わりには、モデルは基本モデルの誤りを修正することを学ぶかもしれませんが、自身のエラーを検出する能力が不足しています」とクマールは指摘します。
SFTのもう一つの欠点は、モデルが最初の試行で最適な答えを提供することを学ぶが、誤りを修正せずにそのままにしてしまう可能性です。「SFTで訓練されたモデルは、『直接的』な戦略に傾く傾向があり、自己修正プロセスを学ぶことがありません」と彼は付け加えます。
強化学習による進歩
これらの限界に対処するために、DeepMindの研究者たちは強化学習(RL)に目を向けました。
「現在のLLMは自己修正を効果的に行っていません」とクマールは述べています。「彼らは過去の誤りを反映するようには訓練されておらず、最良の回答を生成することを目指しています。したがって、我々は自己修正のための手法を開発しました。」
SCoReは、一つのモデルが応答を生成し、独立してその誤りを修正することを学びます。これは自己生成データのみに基づいて訓練を行うことで外部の情報への依存を排除しています。
以前のRLアプローチは主に単回の対話に依存していたため、自己修正の命令を無視し、記憶から直接最善の推測を提供する行動崩壊を引き起こしました。「単純なRL手法では、モデルが自己修正のプロンプトを無視し、ゼロショット応答を生成するだけに集中してしまいました」とクマールは説明します。
行動崩壊に対処するために、SCoReは正則化技術で強化された二段階の訓練プロセスを採用しています。第一段階では、修正パフォーマンスを最適化し、モデルの初期の応答が基本モデルの出力と一致するようにします。第二段階では、多回のRLを活用して初期およびその後の試行でのパフォーマンスを向上させ、複数の反復でモデルが回答を改善するように動機付ける報酬システムを組み込みます。
「この二重のアプローチは、モデルが単に最善の最初の応答を生成し、それを最小限に修正するだけではなく、基本モデルの知識を良好な自己修正に効果的に活用できるようにします」と研究者たちは説明しています。
SCoReの実績
DeepMindの研究者たちは、自己生成データを使用してSCoReを既存の自己修正手法と比較し、数学やコーディングタスクを強化し、MATH、MBPP、HumanEvalといったベンチマークを用いて評価しました。
SCoReは、Gemini 1.0 Proおよび1.5 Flashモデルの自己修正能力を大幅に向上させ、MATHベンチマークで15.6%、HumanEvalで9.1%の絶対的な向上を達成し、基本モデルに対して他の自己修正手法を上回る結果を示しました。
最も顕著な改善は、モデルが最初の試行から2回目の試行にかけて誤りを洗練し、正しい回答に対する誤った修正を最小限に抑える能力でした。SCoReはまた、推論時のスケーリング戦略と組み合わせることで、同じ推論予算を複数の修正ラウンドに分配することにより、さらなるパフォーマンス向上を実現しました。
この研究は主にコーディングや推論タスクに焦点を当てていますが、チームはSCoReがより広い応用を持つと信じています。「ユーザーが見る前に、潜在的に危険な出力を認識し、自律的に改善できるモデルを想像してみてください」とクマールは提案します。
この研究は、LLMに入力と出力の対応だけでなく、論理的な推論や自己修正を学ばせる重要性を強調しており、より能力が高く信頼性のあるAIシステムへの道を開くものです。