中國人工智慧初創公司DeepSeek,以開發一款受訓於2兆個英語和中文標記的ChatGPT競爭者而聞名,最近推出了DeepSeek Coder V2,這是一款用於代碼生成的開源混合專家模型(MoE)。
DeepSeek Coder V2基於上個月推出的DeepSeek-V2的成功,在編碼和數學任務方面表現出色,支持超過300種編程語言。它在性能上超越了諸如GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro等領先的封閉源模型,成為第一個達到此性能水平的開放模型,超越Llama 3-70B及其類別中的其他模型。
DeepSeek成立於2022年,致力於「以好奇心揭開AGI的奧秘」。在短短一年內,該公司已開源多個模型,包括DeepSeek Coder系列。原始的DeepSeek Coder擁有330億個參數,在項目級別的代碼完成和填補方面表現良好,但僅支持86種編程語言,且上下文窗口為16K。而新版本V2將語言支持擴展至338種,並將上下文窗口增加至128K,使其能夠處理更複雜的編碼挑戰。
在評估代碼生成、編輯和問題解決能力的基準測試中,如MBPP+、HumanEval和Aider,DeepSeek Coder V2的得分分別為76.2、90.2和73.7,超越了許多封閉和開源模型,包括GPT-4 Turbo、Claude 3 Opus及Llama-3 70B。在數學基準測試(MATH和GSM8K)中,它同樣顯示出強勁的表現。
在多個基準測試中,只有GPT-4o的得分略高於DeepSeek Coder V2,尤其是在HumanEval、LiveCode Bench、MATH和GSM8K中。DeepSeek的這些進展源於DeepSeek V2,它利用Mixture of Experts框架,並在一個關注代碼和數學的6兆標記數據集上進行預訓練,數據主要來自GitHub及CommonCrawl。
該模型提供16B和236B的參數選擇,針對特定任務僅激活2.4B和21B的專家參數,從而提高計算效率。
除了強大的編碼能力,DeepSeek Coder V2在一般推理和語言理解方面也表現出色。在MMLU基準測試中取得79.2的得分,超越了其他專注於代碼的模型,並與Llama-3 70B相當。GPT-4o和Claude 3 Opus在MMLU類別中分別以88.7和88.6的分數領先。
這一發展顯示出開源編碼模型在應用範圍的進步,越來越能與領先的封閉源技術競爭。
DeepSeek Coder V2在MIT許可下發布,允許進行研究和商業使用。用戶可以通過Hugging Face下載16B和236B的模型(指令配置和基礎配置),或通過DeepSeek平台的API以按需付費的模式訪問它們。
用戶可以通過公司平台上的聊天機器人與DeepSeek Coder V2互動,深入探索其能力。