La startup chinoise DeepSeek, reconnue pour avoir développé un concurrent de ChatGPT entraîné sur 2 trillions de tokens en anglais et en chinois, a lancé DeepSeek Coder V2, un modèle open-source de mélange d'experts (MoE) pour la génération de code.
S'appuyant sur le succès de DeepSeek-V2, lancé le mois dernier, DeepSeek Coder V2 excelle dans les tâches de codage et de mathématiques, prenant en charge plus de 300 langages de programmation. Il surpasse les modèles fermés leaders comme GPT-4 Turbo, Claude 3 Opus et Gemini 1.5 Pro, marquant une avancée significative en tant que premier modèle ouvert à atteindre ce niveau de performance, surpassant Llama 3-70B et d'autres dans sa catégorie.
Fondée en 2022, DeepSeek vise à "percer le mystère de l'AGI par la curiosité." En un an, l'entreprise a rendu open-source plusieurs modèles, y compris la famille DeepSeek Coder. Le modèle original DeepSeek Coder, avec 33 milliards de paramètres, a bien performé pour la complétion et l'injection de code à niveau projet, mais ne prenait en charge que 86 langages de programmation et avait une fenêtre de contexte de 16K. La nouvelle version V2 élargit le support des langages à 338 et augmente la fenêtre de contexte à 128K, lui permettant de relever des défis de codage plus complexes.
Dans des benchmarks tels que MBPP+, HumanEval et Aider, conçus pour évaluer les capacités de génération, d'édition de code et de résolution de problèmes, DeepSeek Coder V2 a obtenu des scores de 76,2, 90,2 et 73,7 respectivement, dépassant de nombreux modèles ouverts et fermés, y compris GPT-4 Turbo, Claude 3 Opus et Llama-3 70B. Il a également démontré des résultats solides dans les benchmarks mathématiques (MATH et GSM8K).
Le seul modèle à surpasser DeepSeek Coder V2 sur plusieurs benchmarks était GPT-4o, avec des scores légèrement plus élevés dans HumanEval, LiveCode Bench, MATH et GSM8K. DeepSeek a tiré ces avancées de DeepSeek V2, qui utilise un cadre de mélange d'experts, pré-entraîné sur un vaste ensemble de données de 6 trillions de tokens axé sur le code et les mathématiques, principalement extrait de GitHub et de CommonCrawl.
Avec des options de 16B et 236B de paramètres, le modèle active uniquement 2,4B et 21B de paramètres d'experts pour des tâches spécifiques tout en optimisant l'efficacité informatique.
Outre ses capacités de codage, DeepSeek Coder V2 montre de solides compétences en raisonnement général et en compréhension du langage. Par exemple, il a obtenu un score de 79,2 au benchmark MMLU, surpassant d'autres modèles spécifiques au code tout en se rapprochant de Llama-3 70B. GPT-4o et Claude 3 Opus dominent la catégorie MMLU avec des scores de 88,7 et 88,6 respectivement.
Cette évolution indique que les modèles de codage open-source progressent dans un éventail d'applications plus large, rivalisant de plus en plus avec les technologies fermées de premier plan.
DeepSeek Coder V2 est disponible sous la licence MIT, permettant un usage tant pour la recherche que commercial. Les utilisateurs peuvent télécharger les modèles 16B et 236B en configurations instruct et base via Hugging Face, ou y accéder par API sur la plateforme DeepSeek avec un modèle de paiement à l'utilisation.
Pour explorer ses capacités, les utilisateurs peuvent interagir avec DeepSeek Coder V2 à travers un chatbot sur la plateforme de l'entreprise.