大規模言語モデル(LLM)は、テキストとコードを含む広範なデータセットで事前訓練(プレトレーニング)されています。特にプログラミングタスクに焦点を当てたモデルではコードが重要ですが、ノンコーディングアプリケーション向けのLLMでもその使用が一般化しています。
最近、Cohereの研究者たちは、LLMの事前訓練におけるコードデータの存在が、コーディング以外の様々なタスクに対する全体的なパフォーマンスにどのように影響するかを調査しました。「多くの実務者は、コードデータがLLMのパフォーマンスに不可欠であることに同意していますが、非コードタスクに対するその具体的な影響について分析した研究は限られています」と研究者たちは述べています。
コードが与える影響の調査
研究者たちは、コードが一般的なLLMのパフォーマンスにどのように影響するかを評価する一連の実験を行いました。重要な要素には、訓練データに含まれるコードの量、訓練中のコード導入のタイミング、コードの質、およびモデルサイズが含まれます。
2段階の訓練アプローチを使用し、異なる割合のテキストとコードを組み合わせた「継続プレトレーニング」を実施し、その後「クールダウン」フェーズで、最終訓練段階においてより高品質のデータセットを重視しました。基本モデルはテキストのみで訓練され、その他のモデルはテキストとコードのバランスの取れたデータセットまたはコード専用データで事前訓練されました。
470百万から28億パラメータのモデルを評価し、世界知識、自然言語推論、コードパフォーマンスに重点を置いたさまざまなベンチマークでテストが行われました。
コードがノンコーディングタスクに及ぼす利点
実験の結果、コードはノンコーディングタスクにおけるLLMのパフォーマンスを大幅に向上させることが明らかになりました。自然言語推論において、コードをトレーニングに使用したモデルは、テキストのみのモデルを常に上回ります。特に、コード専用で事前訓練したモデルが最高のパフォーマンスを発揮しました。「コードを混合した事前訓練モデルからスタートすることが、自然言語推論タスクに良い影響を与えることを示しています」と研究者たちは説明しています。
世界知識タスクに関しては、事前訓練時にコードとテキストのバランスの取れたデータセットが最良の結果を得ました。研究者たちは「世界知識タスクに最適なパフォーマンスは、初期化のためのバランスの取れたデータ混合と、継続的な事前訓練中のテキストのより大きな割合に依存します」と提案しています。
生成タスクに関しても、コード専用およびバランスの取れたモデルがテキスト専用モデルを上回り、コードの組み込みが推論能力を向上させるだけでなく、生成の質も向上させることが示されました。
また、モデルのサイズが大きくなるほどコードの追加による利点が増し、最も顕著な効果が世界知識とコードパフォーマンスで観察され、自然言語推論においては控えめな改善が見られました。「これらの結果は、モデルサイズが大きくなるにつれて自然言語タスクとコード生成間のトレードオフが強まることを示唆しています」と述べています。
今後の展望
Cohereは企業向けのLLMの開発に注力しており、これらの発見が将来のモデルや製品デプロイに影響を与える可能性があります。特定のタスクに合わせた異なるテキストとコードの混合を持つ多様な事前訓練モデルの提供を考えています。企業はこれらのモデルを独自データで微調整することで、最適なパフォーマンスを実現できるでしょう。「私たちの発見は開発者にとって非常に重要で、効率的なモデルのリリースにつながるでしょう」とアリヤブミ氏は述べています。「コードがコーディング関連のタスクを超えたパフォーマンス向上に寄与することは驚きです。このことが最先端モデルの開発へのアプローチに影響を与えます。」