大規模言語モデル(LLM)の推論能力を向上させるために、Google DeepMindと南カリフォルニア大学の研究者たちが革新的な「自己発見」プロンプトフレームワークを導入しました。この新手法はarXivおよびHugging Faceで発表されており、既存のプロンプト技術を超え、OpenAIのGPT-4やGoogleのPaLM 2を含むさまざまなモデルの性能向上を示しています。
研究者たちは、「自己発見は、Chain of Thought(CoT)手法に比べて、BigBench-HardやMATHのような難解な推論基準においてGPT-4とPaLM 2の性能を最大32%向上させる」と述べています。
この自己発見フレームワークは、LLMが特定のタスクに対する推論構造を自律的に特定し、効果的な問題解決を実現します。複数の原子推論モジュール(批判的思考やステップバイステップの推論など)を分析することで、モデルは問題解決の際に明示的な推論フレームワークを構築することができます。
このアプローチの最も注目すべき点は、その効率性です。計算能力は10倍から40倍少なくて済み、これはビジネスにとって大きなメリットです。
LLM推論の進化
LLMは、指示を処理し、推論し、一貫した回答を生成する能力を備え、さまざまなタスクに取り組む成熟した技術です。トランスフォーマーアーキテクチャを使用するこれらのモデルは、人間の推論や問題解決に関する認知理論から引き出した多様なプロンプティング戦略を利用しています。具体的には、少数ショットやゼロショットの連鎖思考プロンプティング、タスクの細分化、一般原則を導出するための反射的なステップバックプロンプティングなどが含まれます。
これらの手法、特に連鎖思考は効果的ですが、タスクに対するアプローチについて暗黙の前提に依存していることがあります。研究者たちは、各タスクが独自の内在的構造を持っており、細かな手法が効果的である可能性があることを指摘します。
DeepMindとUSCのチームは、根本的な構造を自動的に特定し、最適な推論戦略を選択すると同時に効率を最適化する包括的なプロンプティングフレームワークを提案しています。
驚異的な性能向上
新しいフレームワークの効果を評価するために、研究者たちはGPT-4やPaLM 2-Lを含む複数のモデルで、BigBench-HardやMATHを含む25の推論タスクでテストしました。自己発見フレームワークは、25のタスクのうち21で連鎖思考手法を上回り、最大32%の性能向上を達成し、推論の計算量が10倍から40倍少ないという効率向上も示しました。
結果によると、GPT-4でテストした際、自己発見手法はBig-Bench Hard、Thinking for Doing、MATHタスクでそれぞれ81%、85%、73%の精度を達成しました。一方、連鎖思考手法の精度は75%、52%、71%でした。計画と解決アプローチとの比較でも同様の性能差が見られました。
PaLM 2-Lにおいては、三つのタスクでそれぞれ67%、69%、50.5%の精度を得て、連鎖思考(60%、40%、42%)や計画と解決(61%、42%、49%)を上回りました。
AIの推論能力の向上
自己発見プロンプティングフレームワークは、LLMが問題解決にアプローチする際の革命的進展をもたらし、一般知能の実現に近づく可能性があります。転移可能な研究は、構成された推論構造がモデルタイプを超えて広く適用可能であり、人間の推論と共通の特性を持っていることを示しています。
研究チームは、「今後、LLMにおける構造的推論の探求を続け、問題解決能力の向上と人間とAIの協働の新たな道を切り開くことを楽しみにしています」と結論付けています。