DeepSeek Coder de Chine : le premier modèle de codage open-source qui surpasse GPT-4 Turbo

Home Actualités IA DeepSeek Coder de Chine : le premier modèle de codage open-source qui surpasse GPT-4 Turbo

La startup chinoise DeepSeek, reconnue pour avoir développé un concurrent de ChatGPT entraîné sur 2 trillions de tokens en anglais et en chinois, a lancé DeepSeek Coder V2, un modèle open-source de mélange d'experts (MoE) pour la génération de code.

S'appuyant sur le succès de DeepSeek-V2, lancé le mois dernier, DeepSeek Coder V2 excelle dans les tâches de codage et de mathématiques, prenant en charge plus de 300 langages de programmation. Il surpasse les modèles fermés leaders comme GPT-4 Turbo, Claude 3 Opus et Gemini 1.5 Pro, marquant une avancée significative en tant que premier modèle ouvert à atteindre ce niveau de performance, surpassant Llama 3-70B et d'autres dans sa catégorie.

Fondée en 2022, DeepSeek vise à "percer le mystère de l'AGI par la curiosité." En un an, l'entreprise a rendu open-source plusieurs modèles, y compris la famille DeepSeek Coder. Le modèle original DeepSeek Coder, avec 33 milliards de paramètres, a bien performé pour la complétion et l'injection de code à niveau projet, mais ne prenait en charge que 86 langages de programmation et avait une fenêtre de contexte de 16K. La nouvelle version V2 élargit le support des langages à 338 et augmente la fenêtre de contexte à 128K, lui permettant de relever des défis de codage plus complexes.

Dans des benchmarks tels que MBPP+, HumanEval et Aider, conçus pour évaluer les capacités de génération, d'édition de code et de résolution de problèmes, DeepSeek Coder V2 a obtenu des scores de 76,2, 90,2 et 73,7 respectivement, dépassant de nombreux modèles ouverts et fermés, y compris GPT-4 Turbo, Claude 3 Opus et Llama-3 70B. Il a également démontré des résultats solides dans les benchmarks mathématiques (MATH et GSM8K).

Le seul modèle à surpasser DeepSeek Coder V2 sur plusieurs benchmarks était GPT-4o, avec des scores légèrement plus élevés dans HumanEval, LiveCode Bench, MATH et GSM8K. DeepSeek a tiré ces avancées de DeepSeek V2, qui utilise un cadre de mélange d'experts, pré-entraîné sur un vaste ensemble de données de 6 trillions de tokens axé sur le code et les mathématiques, principalement extrait de GitHub et de CommonCrawl.

Avec des options de 16B et 236B de paramètres, le modèle active uniquement 2,4B et 21B de paramètres d'experts pour des tâches spécifiques tout en optimisant l'efficacité informatique.

Outre ses capacités de codage, DeepSeek Coder V2 montre de solides compétences en raisonnement général et en compréhension du langage. Par exemple, il a obtenu un score de 79,2 au benchmark MMLU, surpassant d'autres modèles spécifiques au code tout en se rapprochant de Llama-3 70B. GPT-4o et Claude 3 Opus dominent la catégorie MMLU avec des scores de 88,7 et 88,6 respectivement.

Cette évolution indique que les modèles de codage open-source progressent dans un éventail d'applications plus large, rivalisant de plus en plus avec les technologies fermées de premier plan.

DeepSeek Coder V2 est disponible sous la licence MIT, permettant un usage tant pour la recherche que commercial. Les utilisateurs peuvent télécharger les modèles 16B et 236B en configurations instruct et base via Hugging Face, ou y accéder par API sur la plateforme DeepSeek avec un modèle de paiement à l'utilisation.

Pour explorer ses capacités, les utilisateurs peuvent interagir avec DeepSeek Coder V2 à travers un chatbot sur la plateforme de l'entreprise.

Augie Studio : Révolutionner la création de vidéos par IA pour les marketers et les entreprises comme Canva.

Le co-fondateur et CTO de Runway annonce la sortie de la version alpha Gen-3 dans quelques jours, exclusivement pour les abonnés payants.

Most people like

AI Bulk Content Generation

530.8K

La génération de contenu en masse par IA crée sans effort de grands volumes de contenu, optimisant votre stratégie de marketing de contenu et vous faisant gagner un temps précieux.

IA AI Content Generator

VidAU

133.8K

Créez des vidéos captivantes en quelques minutes en les produisant par lots.

Générateur vidéo IA AI Video Generator

Ghost Craft

9.4K

Découvrez un outil alimenté par l'IA qui crée du contenu optimisé pour le SEO, spécifiquement conçu pour votre marque. Élevez votre présence en ligne et engagez votre audience avec des messages sur mesure qui résonnent et se classent mieux dans les résultats de recherche.

Piloté par l'IA Writing Assistants

Distribute | Death To Whitepapers

37.6K

Créez, lancez et partagez sans effort un contenu de haute qualité en quelques minutes avec Distribute. Découvrez une distribution de contenu simplifiée qui élève votre stratégie marketing et maximise l'engagement.

création de contenu AI Lead Generation

Find AI tools in YBX