AI推論の進展:Quiet-STaRの紹介
人間は「もしも」と「なぜ」を考え、暗黙の情報を解釈して複雑な問題を解決する独自の推論能力を持っています。しかし、従来のAIモデルはこの程度の推論に苦労してきました。スタンフォード大学とNotbad AI, Inc.の研究者たちは、AIが応答する前に考えることを学ぶ「Quiet-STaR」という新たな技術を開発し、人間の思考プロセスを模倣しています。
Quiet-STaRの強化
Quiet-STaRはMistral 7Bモデルに実装され、そのゼロショット推論能力が大幅に向上しました。特に以下の成果が顕著でした:
- CommonsenseQAにおける質問応答精度(36.3%から47.2%へ向上)
- GSM8Kの小学校数学問題解決能力(5.9%から10.9%へ向上)
これらの向上は、モデルの内部思考を表すトークン数に直接関連しています。研究者たちは、「Quiet-STaRは、より一般的でスケーラブルな方法で推論を学ぶことができる言語モデルへの一歩を示しています」と述べています。
AI推論における以前の課題
従来のAI推論アプローチは、特定のタスクに依存した訓練により、一般性が限られていました。モデルは狭いタスクに特化したデータセットで訓練されることが多く、広範なシナリオに適応する能力が制限されていました。
例えば、人間の推論に特化した言語モデルは直接応答AIに勝るものの、これらのアプローチは特定のデータセットに依存していました。STaRモデルは、AIが質問応答データセットからの反復学習を通じて推論能力を高めることができることを示しましたが、キュレーションされたデータに頼る限り、そのスケーラビリティは制限されます。「これらのデータセットから訓練することは、推論タスクのほんの一部をカバーすることになってしまいます」と研究者たちは主張し、モデルが多様なテキスト入力から合理的な結論を引き出す必要性を強調しています。
Quiet-STaRの手法
Quiet-STaRの手法は、各トークンで複数の内的な考えを生成し、応答を提供する前に「思考」プロセスに参加することによって機能します。これにより、AIは将来のテキストを強化された文脈で評価できるようになります。REINFORCEアルゴリズムを使用することで、モデルは予測を最適化し、精度の低い出力を排除し、訓練全体にわたって推論を反復的に洗練させます。
一般的な推論を促進するために、研究者たちはゼロショットプロンプト(「一歩ずつ考えましょう」)を使用し、OpenWebMathやColossal Clean Crawled Corpusなどの多様なウェブテキストデータセットでQuiet-STaRを訓練しました。「Quiet-STaRはモデルが各トークンレベルで静かに考えることを可能にし、ユーティリティを高める分布を促進します」と彼らは述べています。