Aujourd'hui, Mistral, une startup d'IA basée à Paris qui a fait la une des journaux avec le plus grand tour de financement de seed en Europe l'année dernière, entre dans le domaine de la programmation et du développement avec le lancement de Codestral, son premier modèle de langage large (LLM) axé sur le code.
Désormais disponible sous une licence non commerciale, Codestral présente un modèle d'IA générative à 22 milliards de paramètres et en poids ouverts, excelling dans les tâches de codage, allant de la génération de code à sa mise en œuvre. Mistral affirme que ce modèle prend en charge plus de 80 langages de programmation, en faisant un outil essentiel pour les développeurs de logiciels désireux de créer des applications innovantes en IA. Selon l'entreprise, Codestral surpasse les modèles de codage précédents, notamment CodeLlama 70B et Deepseek Coder 33B, et est déjà adopté par des leaders du secteur tels que JetBrains, SourceGraph et LlamaIndex.
Un Outil de Haute Performance pour les Développeurs
Codestral 22B se distingue par une longueur de contexte de 32K, permettant aux développeurs d'interagir avec le code dans divers environnements et projets. Entraîné sur un ensemble de données couvrant plus de 80 langages de programmation, il est parfaitement adapté à des tâches variées telles que la génération de code à partir de zéro, la complétion de fonctions, l'écriture de tests et le remplissage d'écarts dans un code partiel. Les langages pris en charge incluent des options populaires comme SQL, Python, Java, C et C++, ainsi que des choix plus spécifiques comme Swift et Fortran. Mistral affirme que Codestral peut améliorer la productivité des développeurs, rationaliser les flux de travail et permettre un gain de temps significatif tout en réduisant les risques d'erreurs lors du développement d'applications.
Bien que le modèle ait été récemment lancé et attende des tests publics, Mistral est convaincu qu'il surpasse les modèles actuels, y compris CodeLlama 70B, Deepseek Coder 33B et Llama 3 70B, pour la plupart des langages de programmation.
Des Métriques de Performance Impressionnantes
Sur RepoBench, conçu pour évaluer la complétion de code Python à long terme au niveau des dépôts, Codestral a obtenu un score d'exactitude de 34%, surpassant tous ses concurrents. Il a également excellé sur HumanEval pour la génération de code Python et CruxEval pour la prédiction de sortie avec des scores de 81,1% et 51,3% respectivement. De plus, il a surpassé d'autres modèles sur HumanEval pour Bash, Java et PHP. Bien que ses performances en C++, C et Typescript aient été légèrement inférieures, sa moyenne de 61,5% sur l'ensemble des tests devance le score de 61,2% de Llama 3 70B. Dans l'évaluation Spider pour SQL, il a obtenu la deuxième place avec un score de 63,5%.
Des outils de productivité pour développeurs et de développement d'applications en IA, tels que LlamaIndex, LangChain, Continue.dev, Tabnine et JetBrains, ont commencé à tester Codestral. “D'après nos premiers tests, c'est une excellente option pour les flux de travail de génération de code grâce à sa rapidité, sa fenêtre de contexte favorable et son support pour l'utilisation d'outils. Nous l'avons testé avec LangGraph pour la génération de code autocorrective, et il a très bien fonctionné dès le départ,” a déclaré Harrison Chase, PDG et cofondateur de LangChain.
Commencez avec Codestral
Mistral offre Codestral 22B sur Hugging Face sous une licence non commerciale, permettant aux développeurs d'utiliser la technologie à des fins non lucratives, de tests et de recherches. Deux points de terminaison API sont également disponibles : codestral.mistral.ai, destiné aux routes Instruct ou Fill-In-the-Middle dans les IDE, fournissant une clé API gérée par l'utilisateur pendant une période beta gratuite de huit semaines; et api.mistral.ai, pour des recherches plus larges, des requêtes en lot ou le développement d'applications tierces, avec des coûts facturés par token.
Les développeurs peuvent explorer les capacités de Codestral via Le Chat, l'interface conversationnelle gratuite de Mistral, qui propose une version instructive du modèle. L'introduction de Codestral par Mistral constitue une option significative pour les chercheurs d'entreprise souhaitant accélérer le développement de logiciels, mais sa performance par rapport à d'autres modèles centrés sur le code, tels que StarCoder2 des lancements récents ou les offres d'OpenAI et d'Amazon, reste encore à déterminer.
Les concurrents clés incluent Codex d'OpenAI, qui alimente GitHub Copilot, et CodeWhisper d'Amazon. De plus, ChatGPT d'OpenAI est de plus en plus utilisé comme outil de codage, tandis que son modèle GPT-4 Turbo alimente Devin, un agent de codage semi-autonome de Cognition. Le paysage concurrentiel comprend également Replit, qui propose plusieurs petits modèles de codage IA, ainsi que Codenium, récemment évalué à 500 millions de dollars après un tour de financement de 65 millions de dollars en série B.