大規模言語モデル(LLM)は、主に訓練に使用されるデータの質と範囲に依存しています。研究者たちは長年にわたり、これらのモデルが生成する出力の不正確さを自己修正する効果的な方法を模索してきました。初期の取り組みとして、MITで開発されたマルチエージェントアプローチが期待できる結果を示しています。しかし、最近のGoogle DeepMindの研究によると、LLMは自己修正を試みる際にパフォーマンスが低下することがあることが明らかになっています。
Google DeepMindの研究者たちは、「大規模言語モデルはまだ自己修正推論ができない」と題した論文で、LLMの自己修正能力の限界について徹底的な実験を行いました。彼らの分析では、これらのモデルが外部の指導なしに内部判断だけで誤りを修正しようとすると、失敗する傾向があるという重要な課題が浮かび上がりました。これは、以前の研究が「オラクル」、つまりあらかじめ決められた正しいラベルに基づく指導があれば自己修正が効果的であると示していたのとは異なる結果です。このオラクルがない場合、モデルの正確性は向上しません。
研究チームは、LLMは特に「多くの実世界のアプリケーションで外部フィードバックが利用できないため」、自己修正機能を備える必要があると指摘しています。
自己修正の課題
LLMが直面する多くの課題の一つが「幻覚」、すなわち誤った出力です。どのシステムもこのような不正確さから完全には逃れられませんが、軽減策も存在します。たとえば、Gorillaが提案したASTツリー法やMITの研究者によるマルチエージェント社会アプローチがその例です。
LLMベースのカスタマーサービスチャットボットが、誤った回答を提供し、自らその誤りを修正するシナリオを想像してみてください。AI研究コミュニティは、このシナリオを現実にすることにますます注目しています。Googleの研究者たちはこの目標について考察しましたが、自己修正に起因する改善の多くは、設計の不十分な初期プロンプトがよく設計されたフィードバックに埋もれている結果であると指摘しています。「このような場合、フィードバックを初期指示に統合するか、初期プロンプトを改良することで、より良い結果とコスト削減が得られる可能性があります」と述べています。
しかしこの調整は、LLMが完全に自立して自己修正できるという目標を達成するものではありません。たとえば、「前の回答を見直し、誤りを特定せよ」というプロンプトは、初期の回答が正確であっても誤った結果を生む場合があります。
出力の一貫性を探る
この研究では、OpenAIのChatGPTを含むさまざまなモデルがコード生成のベンチマークテストに参加しました。その後、それらの応答をエージェントシステムが批評し、自己修正を促進しました。このプロセスの中で、単一のAIモデルが常に同一の出力を生成するわけではないものの、複数のLLMが集まって一貫した応答に合意することが可能であることが明らかになりました。
研究は自己一貫性の概念を強調し、観察された改善は自己修正によるものではなく、モデル出力間の一貫性の向上に起因すると主張しています。投票メカニズムがモデル主導の洞察に基づくのか、単なる回答の集計に基づくのかが重要な違いです。したがって、自己修正と見なすためには、複数の出力を生成することから生じる選択効果を除外する必要があります。
効果的な自己修正への道
LLMにおける真の自己修正がいつ可能になるのか、という疑問が残ります。Google DeepMindは、自己修正機能が特に安全な応答生成を必要とするアプリケーションに有益である可能性があると考えています。研究は、Claudeの「憲法AI」システムのように真実のラベルを組み込んだモデルが、推論の過程で誤った応答を回避するのに役立つ可能性を指摘しています。
現時点では、LLMは外部の入力なしに独立して推論を自己修正する能力を欠いています。研究者たちは、これらのモデルが自律的に自己修正機能を発展させると考えるのは過度に楽観的だと表現しています。代わりに、彼らは現行モデルの改善を支持し、最終的な自己修正に向けた準備を進めるべきだと提唱しています。
この重要な分野を進展させるために、研究者たちは自己修正に対する明晰な視点を持つこと—その可能性を認識しつつ限界も理解すること—を求めています。このバランスの取れたアプローチは、LLMが正確性と信頼性を向上させ、さまざまなアプリケーションにおいて精度の高いツールとして進化する道筋を築くでしょう。