La startup française de l'IA, Mistral, bien financée et reconnue pour ses modèles d'IA open-source avancés, a lancé deux nouveaux modèles de langage de grande taille (LLM) : un modèle axé sur les mathématiques et un modèle de génération de code pour les développeurs, tous deux basés sur l'architecture innovante Mamba introduite par les chercheurs l'année dernière.
Mamba vise à améliorer l'efficacité des architectures de transformateurs traditionnelles en rationalisant les mécanismes d'attention. Cette avancée permet aux modèles basés sur Mamba d'obtenir des temps d'inférence plus rapides et de gérer des contextes plus longs, les distinguant ainsi des modèles de transformateurs classiques. D'autres entreprises, comme AI21, ont également lancé des modèles d'IA utilisant cette architecture.
Le Codestral Mamba 7B de Mistral est conçu pour offrir des temps de réponse rapides, même avec des textes d'entrée étendus, ce qui le rend idéal pour les projets de codage local. Disponible sur la Plateforme API de Mistral, il peut traiter des inputs de jusqu'à 256 000 tokens — deux fois la capacité du GPT-4 d'OpenAI.
Lors des tests de benchmark, Codestral Mamba a surpassé plusieurs modèles open-source concurrents, tels que CodeLlama 7B, CodeGemma-1.17B et DeepSeek lors des évaluations HumanEval.
Les développeurs peuvent modifier et déployer Codestral Mamba via son dépôt GitHub et HuggingFace sous la licence open-source Apache 2.0. Mistral affirme que la version antérieure de Codestral a surpassé d'autres générateurs de code, y compris CodeLlama 70B et DeepSeek Coder 33B.
Les outils de génération de code alimentés par l'IA et d'assistance au codage sont devenus des applications essentielles, avec des plateformes telles que Copilot de GitHub, CodeWhisperer d'Amazon et Codenium qui gagnent en popularité.
Le second lancement de Mistral, Mathstral 7B, est axé sur le raisonnement mathématique et la découverte scientifique, développé en collaboration avec le Projet Numina. Avec une fenêtre de contexte de 32k, Mathstral fonctionne sous une licence open-source Apache 2.0 et a surpassé tous les modèles de raisonnement mathématique existants. Il offre des résultats "significativement meilleurs" lors des benchmarks nécessitant des calculs intensifs en temps d'inférence, et les utilisateurs peuvent choisir de l'utiliser tel quel ou de l'affiner pour des besoins spécifiques.
« Mathstral illustre les excellents compromis performance-vitesse réalisables lors de la construction de modèles pour des applications spécialisées — une philosophie à laquelle nous sommes attachés sur la Plateforme, notamment grâce à ses capacités d'affinage améliorées », a partagé Mistral dans un article de blog.
Mathstral est accessible via la Plateforme de Mistral et HuggingFace.
Concurrençant fermement des leaders de l'industrie comme OpenAI et Anthropic, Mistral a récemment sécurisé 640 millions de dollars lors d'un financement de Série B, portant sa valorisation à près de 6 milliards de dollars, avec des investissements de géants technologiques tels que Microsoft et IBM.