大規模言語モデル(LLMs)の新しい検証手法:GenRMの導入と効果
大規模言語モデル(LLMs)は、特に複雑な推論タスクにおいて事実や論理的な誤りに直面することが多いです。この問題を軽減するために、研究者たちは信頼性の高い検証者や報酬モデルを導入し、LLMsが生成した出力の中から最も正確な応答を選び出す手法を採用しています。
最近、Google DeepMind、トロント大学、Mila、ロサンゼルス大学の研究チームが発表した論文で、GenRMという新しいアプローチが紹介されました。この技術は、LLMsの生成能力を活用して検証プロセスを強化することを目的としています。GenRMは、従来の検証手法が不十分なLLMベースのアプリケーションにとって、価値あるツールとなります。
従来の検証者と報酬モデルの限界
LLMの精度を向上させる一般的な手法は、複数の候補回答を生成し、別のコンポーネントで最良のものを選び出すことです。このプロセスには、信頼できる検証者または報酬モデルが必要です。通常、LLMベースの検証者は、候補解答に対して正誤を数値化する識別的報酬モデル(RMs)として訓練されます。しかし、これらのRMsは、LLMsの本質的な生成能力を十分に活かしていません。
DeepMindのシニアリサーチサイエンティストであり、論文の共著者であるリシャブ・アガルワールは「従来の報酬モデル(RMs)や検証者は、LLMsの生成能力を利用していません」と説明しています。また、LLM-as-a-Judgeというテクニックは、先進的なプロンプトを用いて応答を評価しますが、このアプローチは訓練中に得られる報酬モデルの利点に欠けています。
生成型報酬モデルの提案
DeepMindのGenRMは、次トークン予測による検証者の訓練を通じて、LLMsの生成的な強みを活用する新しいアプローチを提供します。アガルワールは「次トークン予測を用いることで、生成型LLMsの多くの利点を活かすことができます」と述べています。GenRMでは、検証の決定をトークンとして表現します。例えば、「答えは正しいですか?」というプロンプトを使用し、その文脈に基づいて「はい」または「いいえ」というトークンの確率をスコアとして表します。
検証プロセスは複雑な推論を含むため、生成型検証者は、思考過程を明示するためのチェーンオブサード(CoT)推論などの先進的なプロンプト技術から大きな利益を得ることができます。研究者たちは「具体的には、解答の正確性を判断する前に、中間的な推論ステップや批評を生成することができ、直接的な検証者では見落とされがちな微妙なエラーを発見する可能性があります」と述べています。
GenRMモデルのトレーニングには、人間の入力または別のLLMから導出されたCoTの合理性が使用されます。推論時、GenRMはまずCoTの合理性を生成し、その後「はい」トークンの確率を使用して正確さスコアを決定します。さらに、研究者たちは多数決を活用し、複数のCoTチェーンをサンプリングして「はい」スコアの平均を計算することで、テスト時の計算を最適化しました。
アガルワールは「GenRMは、LLM-as-a-Judgeと従来の検証者を統合したものとして考えられます。特定のドメイン検証データで訓練されたLLM-as-a-Judgeを表しています。したがって、GenRMは市販のプロンプトLLMsが不十分な領域に適しています」と説明します。
GenRMの実施例
DeepMindの研究者たちは、GenRMの効果を評価するために、最後の文字の連結、単語のソート、単語数学問題など、さまざまな推論タスクでテストを実施しました。その結果、GenRMは、識別的報酬モデルやLLM-as-a-Judge、自己一貫性の手法と比較しても、常に数パーセントポイントの精度向上を示しました。GSM8K数学推論ベンチマークでは、GenRM用に特訓されたGemma-9Bモデルが92.8%の問題解決率を達成し、GPT-4やGemini 1.5 Proを上回りました。
研究者たちは「解答生成と検証を次トークン予測の目標によって統合することで、GenRMはすべてのタスクにおいて検証性能を一貫して向上させます」と報告しています。また、GenRMはデータセットのサイズやモデルの能力が増加するにつれ好ましくスケールしていることも明らかになりました。さらに、GenRMは、より多くの応答をサンプリングすることで改善が見られ、LLMアプリケーション開発者には精度と計算コストのバランスを取る柔軟性が提供されます。
アガルワールは「従来の検証者と比較して、GenRMは生成と検証の共同訓練により、同じデータを使用しても優れたパフォーマンスを発揮します。そのため、GenRMの訓練は標準的なファインチューニングのみで可能です。ただし、GenRMの能力を最大限に引き出すには、報酬ラベルを明示する批評や検証の合理性が必要です。高品質なデータの場合、人間の入力が必要ですが、よりスケーラブルなソリューションとしては、合成LLM生成された合理性を活用することが考えられます」と述べています。
今後のGenRMの方向性としては、オープンエンドな生成タスクのための合成検証合理性の拡張や、強化学習パイプラインへのGenRMの統合、少数ショット学習、リトリーバー強化生成、ReAct、コード生成と実行などの先進的なLLM能力を活用した検証のさらなる強化が考えられます。