Hoy, Mistral, una startup de IA con sede en París que hizo noticias el año pasado al obtener la ronda de financiamiento semilla más grande de Europa, ha ingresado al ámbito de la programación y el desarrollo con el lanzamiento de Codestral, su modelo de lenguaje grande (LLM) enfocado en código.
Ahora disponible bajo una licencia no comercial, Codestral cuenta con un modelo de IA generativa de 22 mil millones de parámetros que destaca en tareas de codificación, desde la generación de código hasta su implementación. Mistral asegura que este modelo soporta más de 80 lenguajes de programación, convirtiéndolo en un recurso esencial para los desarrolladores de software interesados en crear aplicaciones innovadoras de IA. La compañía sostiene que Codestral supera a modelos previos de codificación, incluyendo CodeLlama 70B y Deepseek Coder 33B, y está siendo adoptado por líderes de la industria como JetBrains, SourceGraph y LlamaIndex.
Una Herramienta de Alto Rendimiento para Desarrolladores
Codestral 22B ofrece una longitud de contexto de 32K, lo que permite a los desarrolladores trabajar con código en diversos entornos y proyectos. Entrenado en un conjunto de datos que abarca más de 80 lenguajes de programación, está bien preparado para tareas de codificación variadas, como generar código desde cero, completar funciones, escribir pruebas y llenar vacíos en código parcial. Los lenguajes soportados incluyen opciones populares como SQL, Python, Java, C y C++, así como opciones más específicas como Swift y Fortran. Mistral afirma que Codestral puede mejorar la productividad de los desarrolladores, optimizar flujos de trabajo y ahorrar tiempo, reduciendo la probabilidad de errores en el desarrollo de aplicaciones.
A pesar de que el modelo acaba de lanzarse y está a la espera de pruebas públicas, Mistral confía en que supera a los modelos actuales, incluyendo CodeLlama 70B, Deepseek Coder 33B y Llama 3 70B, en la mayoría de los lenguajes de programación.
Métricas de Rendimiento Impresionantes
En RepoBench, diseñado para evaluar la finalización de código Python a largo plazo, Codestral logró un 34% de precisión, superando a todos sus competidores. También destacó en HumanEval para generación de código en Python y CruxEval para predicción de salida, con puntuaciones de 81.1% y 51.3%, respectivamente. Además, superó a otros modelos en HumanEval para Bash, Java y PHP.
Si bien su desempeño en C++, C y Typescript fue ligeramente inferior, su puntuación promedio de 61.5% en todas las pruebas superó a la de Llama 3 70B, que fue de 61.2%. En la evaluación Spider para SQL, ocupó el segundo lugar con una puntuación de 63.5%.
Herramientas destacadas para la productividad de los desarrolladores y el desarrollo de aplicaciones de IA, como LlamaIndex, LangChain, Continue.dev, Tabnine y JetBrains, han comenzado a probar Codestral.
“Desde nuestras pruebas iniciales, es una excelente opción para flujos de trabajo de generación de código debido a su velocidad, ventana de contexto favorable y soporte para el uso de herramientas. Lo probamos con LangGraph para generación de código autocorrectivo, y funcionó excepcionalmente bien desde el principio,” afirmó Harrison Chase, CEO y cofundador de LangChain.
Iniciando con Codestral
Mistral ofrece Codestral 22B en Hugging Face bajo una licencia no comercial, permitiendo a los desarrolladores utilizar la tecnología para fines no comerciales, pruebas y apoyo a la investigación.
También están disponibles dos puntos finales de API: codestral.mistral.ai, destinado a rutas de Instruct o Fill-In-the-Middle dentro de entornos de desarrollo integrado (IDE), proporcionando una clave API gestionada por el usuario durante una beta gratuita de ocho semanas; y api.mistral.ai, para investigación más amplia, consultas en lote o desarrollo de aplicaciones de terceros, con costos facturados por token.
Los desarrolladores pueden explorar las capacidades de Codestral a través de Le Chat, la interfaz conversacional gratuita de Mistral que presenta una versión instruida del modelo.
La introducción de Codestral por Mistral representa una opción significativa para investigadores empresariales que buscan acelerar el desarrollo de software, pero su rendimiento frente a otros modelos centrados en código, como StarCoder2 de lanzamientos recientes o las ofertas de OpenAI y Amazon, aún está por verse.
Codex de OpenAI, que impulsa GitHub Copilot, y CodeWhisper de Amazon son competidores clave. Además, ChatGPT de OpenAI se utiliza cada vez más como una herramienta de codificación, mientras que su modelo GPT-4 Turbo alimenta a Devin, un agente de codificación semi-autónomo de Cognition. El panorama competitivo también incluye a Replit, que ofrece varios pequeños modelos de codificación de IA, y Codenium, valorado recientemente en 500 millones de dólares tras una ronda de financiamiento Serie B de 65 millones de dólares.