La startup francesa de IA, Mistral, conocida por sus avanzados modelos de IA de código abierto, ha lanzado dos nuevos modelos de lenguaje de gran tamaño (LLMs): un modelo centrado en matemáticas y un modelo de generación de código para desarrolladores, ambos basados en la innovadora arquitectura Mamba presentada por investigadores el año pasado.
Mamba busca mejorar la eficiencia de las arquitecturas de transformadores tradicionales, optimizando los mecanismos de atención. Este avance permite que los modelos basados en Mamba logren tiempos de inferencia más rápidos y soporten contextos más extensos, diferenciándolos de los modelos de transformador típicos. Otras empresas, como AI21, también han presentado modelos de IA que utilizan esta arquitectura.
El nuevo Codestral Mamba 7B de Mistral está diseñado para ofrecer tiempos de respuesta rápidos, incluso con textos de entrada prolongados, lo que lo hace ideal para proyectos de programación locales. Disponible en la Plateforme API de Mistral, puede procesar entradas de hasta 256,000 tokens, el doble de la capacidad de GPT-4 de OpenAI.
En pruebas comparativas, Codestral Mamba superó a varios modelos de código abierto competidores, como CodeLlama 7B, CodeGemma-1.17B y DeepSeek en evaluaciones de HumanEval.
Los desarrolladores pueden modificar y desplegar Codestral Mamba a través de su repositorio de GitHub y HuggingFace bajo una licencia de código abierto Apache 2.0. Mistral sostiene que la versión anterior de Codestral superó a otros generadores de código, incluidos CodeLlama 70B y DeepSeek Coder 33B.
Las herramientas de generación de código y asistentes de programación impulsadas por IA se han vuelto aplicaciones esenciales, con plataformas como Copilot de GitHub, CodeWhisperer de Amazon y Codenium ganando popularidad.
El segundo lanzamiento de Mistral, Mathstral 7B, se centra en el razonamiento matemático y el descubrimiento científico, desarrollado en colaboración con Project Numina. Con una ventana de contexto de 32k, Mathstral opera bajo una licencia de código abierto Apache 2.0 y ha superado todos los modelos existentes de razonamiento matemático. Entrega "resultados significativamente mejores" en benchmarks que requieren cálculos extensivos en tiempo de inferencia, y los usuarios pueden optar por utilizarlo tal cual o ajustarlo para necesidades específicas.
“Mathstral ejemplifica el excelente equilibrio entre rendimiento y velocidad alcanzable al construir modelos para aplicaciones especializadas, una filosofía a la que nos comprometemos en la Plateforme, particularmente con sus capacidades mejoradas de ajuste fino”, compartió Mistral en una publicación del blog.
Mathstral es accesible a través de la Plateforme de Mistral y HuggingFace.
Enfrentándose a gigantes de la industria como OpenAI y Anthropic, Mistral recientemente aseguró 640 millones de dólares en financiamiento de Serie B, elevando su valoración a casi 6 mil millones de dólares, con inversiones de gigantes tecnológicos como Microsoft e IBM.