中国のAIスタートアップDeepSeekが、2兆トークンによって英語と中国語でトレーニングされたChatGPTの競合製品を開発したことで知られており、コード生成のためのオープンソースMixture of Experts(MoE)モデル「DeepSeek Coder V2」を発表しました。
先月リリースされたDeepSeek-V2の成功を基に、DeepSeek Coder V2は、300以上のプログラミング言語に対応し、コーディングと数学的なタスクで優れた性能を発揮します。このモデルは、GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Proなどの主流のクローズドソースモデルを上回り、Llama 3-70Bなど同カテゴリーの他のモデルを超える初のオープンモデルとして大きなマイルストーンとなりました。
2022年に設立されたDeepSeekは、「好奇心を持ってAGIの謎を解き明かす」という目標を掲げています。創立からわずか1年で、DeepSeek Coderファミリーなど、いくつかのモデルをオープンソース化しました。初代DeepSeek Coderは330億パラメータを持ち、プロジェクトレベルのコード補完や編集において良好に機能しましたが、86のプログラミング言語をサポートし、文脈ウィンドウは16Kでした。新しいV2では、言語サポートが338に拡大し、文脈ウィンドウは128Kに増加し、より複雑なコーディングの課題に挑戦できるようになりました。
DeepSeek Coder V2は、コード生成、編集、問題解決能力を評価するために設計された、MBPP+、HumanEval、Aiderなどのベンチマークでそれぞれ76.2、90.2、73.7のスコアを達成し、多くのクローズド・オープンソースモデルを凌駕しました。数学的なベンチマーク(MATHおよびGSM8K)でも同様に強力な結果を示しました。
他のベンチマークでDeepSeek Coder V2を超えたモデルはGPT-4oのみで、HumanEval、LiveCode Bench、MATH、GSM8Kでわずかに高いスコアを記録しています。この進歩は、主にGitHubとCommonCrawlから集めた、プログラムと数学に特化した6兆トークンの大規模データセットを事前学習に使用したDeepSeek V2から派生したものです。
モデルは16Bおよび236Bのパラメータオプションがあり、特定のタスクに対して2.4Bおよび21Bのエキスパートパラメータのみを活性化し、計算効率を最適化します。
コーディングの能力に加え、DeepSeek Coder V2は一般的な推論や言語理解能力も強く示しています。例えば、MMLUベンチマークでは79.2のスコアを記録し、他のコード固有モデルを上回り、Llama-3 70Bとほぼ同水準です。MMLUカテゴリでは、GPT-4oとClaude 3 Opusがそれぞれ88.7と88.6のスコアでリードしています。
この進展は、オープンソースのコーディングモデルがより広範な応用で進化していることを示し、クローズドソース技術とますます競合していることを示しています。
DeepSeek Coder V2はMITライセンスのもとで利用可能で、研究および商業利用が可能です。ユーザーはHugging Faceから指示型と基本構成の16Bおよび236Bモデルをダウンロードするか、DeepSeekプラットフォームのAPIを通じて従量課金制でアクセスできます。
DeepSeek Coder V2の能力を探るために、ユーザーは同社のプラットフォーム上のチャットボットを介してインタラクションすることができます。