中国人工智能初创公司 DeepSeek,以开发基于 2 万亿个英语和中文标记的 ChatGPT 竞争者而闻名,近日推出了 DeepSeek Coder V2,这是一个开源的专家混合模型(MoE),专注于代码生成。
DeepSeek Coder V2 在上个月发布的 DeepSeek-V2 的基础上,针对编码和数学任务表现出色,支持超过 300 种编程语言。这一成绩超越了诸如 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等顶尖闭源模型,标志着其成为首个达到此性能水平的开源模型,超过了同类的 Llama 3-70B。
DeepSeek 成立于 2022 年,致力于 "以好奇心揭开通用人工智能(AGI)的神秘面纱"。在短短一年内,公司开源了多个模型,包括 DeepSeek Coder 系列。最初的 DeepSeek Coder 拥有 330 亿个参数,能够良好完成项目级代码填充,但仅支持 86 种编程语言,且上下文窗口为 16K。新版本 V2 将语言支持扩展至 338 种,并将上下文窗口增加至 128K,使其能够应对更复杂的编码挑战。
在诸如 MBPP+、HumanEval 和 Aider 等基准测试中,DeepSeek Coder V2 分别获得了 76.2、90.2 和 73.7 的分数,超越了许多闭源和开源模型,包括 GPT-4 Turbo、Claude 3 Opus 和 Llama-3 70B。在数学基准测试(如 MATH 和 GSM8K)中,该模型同样表现出色。
在多项基准测试中,唯一超越 DeepSeek Coder V2 的模型是 GPT-4o,该模型在 HumanEval、LiveCode Bench、MATH 和 GSM8K 中的得分略高。DeepSeek 的这些进展源于 DeepSeek V2,该模型采用了专家混合框架,预先训练于大量代码和数学数据集,总计 6 万亿个标记,主要来自 GitHub 和 CommonCrawl。
该模型提供 160 亿和 2360 亿参数选项,仅在特定任务中激活 24 亿和 210 亿专家参数,从而优化计算效率。
此外,DeepSeek Coder V2 在一般推理和语言理解能力方面同样表现出色。在 MMLU 基准测试中,该模型得分 79.2,超过了其他特定代码模型,接近 Llama-3 70B。GPT-4o 和 Claude 3 Opus 在 MMLU 类别中以 88.7 和 88.6 的得分领先。
这一发展表明,开源编码模型在应用范围上正在逐步向前推进,逐渐与领先的闭源技术形成竞争。
DeepSeek Coder V2 在 MIT 许可证下提供,允许研究和商业使用。用户可以通过 Hugging Face 下载 160 亿和 2360 亿参数的模型,或通过 DeepSeek 平台以按需付费的方式访问它们的 API。
用户还可以通过公司平台上的聊天机器人直接体验 DeepSeek Coder V2 的强大功能。