El ajuste fino es esencial para mejorar los resultados de los modelos de lenguaje grande (LLM) y alinearlos con las necesidades específicas de las empresas. Cuando se ejecuta correctamente, este proceso genera respuestas más precisas y valiosas del modelo, permitiendo a las organizaciones maximizar sus aplicaciones de IA generativa. Sin embargo, el ajuste fino puede ser costoso, creando barreras para algunas empresas que buscan beneficiarse de estas capacidades avanzadas.
Mistral, un proveedor de modelos de IA de código abierto que se acerca rápidamente a una valoración de $6 mil millones solo 14 meses después de su lanzamiento, está incursionando en el ámbito del ajuste fino. Su nueva plataforma para desarrolladores de IA, La Plateforme, introduce herramientas de personalización mejoradas diseñadas para simplificar los procesos de ajuste fino, reducir los costos de entrenamiento y bajar las barreras de entrada.
Con un nombre que refleja un viento fuerte del sur de Francia, Mistral está marcando tendencia en el paisaje de la IA, innovando continuamente y atrayendo financiamiento significativo. La empresa destaca en una reciente publicación del blog que el ajuste fino de modelos más pequeños para dominios específicos puede mejorar el rendimiento mientras se minimizan los costos de implementación y se acelera la velocidad de aplicación.
Personalización de Modelos Mistral para Aumentar la Flexibilidad
Mistral se ha consolidado al lanzar robustos LLMs bajo licencias de código abierto, permitiendo su adaptación gratuita. También ofrece servicios de pago, incluyendo un API y la plataforma para desarrolladores La Plateforme. Esto permite a los usuarios construir aplicaciones utilizando modelos Mistral sin la necesidad de configuraciones de servidor extensivas; pueden hacer llamadas API para aprovechar las capacidades de Mistral.
Ahora, los clientes pueden personalizar modelos Mistral en La Plateforme, utilizar código de código abierto de Mistral en GitHub o acceder a servicios de entrenamiento personalizado. Para los desarrolladores que deseen trabajar independientemente en su infraestructura, Mistral ha lanzado la base de código ligera, mistral-finetune, que emplea el paradigma LoRA para minimizar el número de parámetros entrenables.
Mistral señala: “Con mistral-finetune, puedes ajustar todos nuestros modelos de código abierto en tu infraestructura sin sacrificar rendimiento o eficiencia de memoria.” Para aquellos interesados en el ajuste fino sin servidor, Mistral ofrece nuevos servicios que aprovechan técnicas refinadas de investigación y desarrollo. Los adaptadores LoRA ayudan a preservar el conocimiento fundamental de los modelos mientras permiten implementaciones eficientes. Este avance se describe como un progreso significativo en hacer accesibles métodos científicos sofisticados a los desarrolladores de aplicaciones de IA, permitiendo una rápida y rentable personalización de modelos.
Los servicios de ajuste fino son compatibles con el modelo de 7.3 mil millones de parámetros, Mistral 7B, y Mistral Small. Los usuarios actuales pueden utilizar la API de Mistral para una personalización inmediata, con planes de introducir más modelos para ajuste fino en las próximas semanas. Además, los servicios de entrenamiento personalizado de Mistral optimizan modelos de IA para aplicaciones específicas usando datos propios, a menudo empleando técnicas de vanguardia como el preentrenamiento continuo para incorporar conocimientos especializados. Este enfoque facilita el desarrollo de modelos altamente especializados y eficientes adaptados a dominios particulares.
Para celebrar estas nuevas ofertas, Mistral ha lanzado un hackathon de ajuste fino de IA que se llevará a cabo hasta el 30 de junio, animando a los desarrolladores a experimentar con la innovadora API de ajuste fino de la startup.
Crecimiento y Innovación Sin Precedentes de Mistral
Desde su creación en abril de 2023 por ex-empleados de Google DeepMind y Meta, Arthur Mensch, Guillaume Lample y Timothée Lacroix, Mistral ha experimentado un crecimiento rápido. La empresa aseguró una ronda de financiación inicial récord de $118 millones, la más grande en la historia de Europa, y rápidamente formó alianzas con grandes actores como IBM. En febrero, Mistral Large se hizo disponible a través de una colaboración con Microsoft en Azure.
Recientemente, SAP y Cisco dieron a conocer su apoyo a Mistral, y el mes pasado, la empresa lanzó Codestral, su primer LLM centrado en código, afirmando que supera a todos los competidores. Mistral también se encuentra cerca de una significativa ronda de financiamiento de $600 millones, lo que elevaría su valoración a $6 mil millones.
Posicionado como un competidor directo de OpenAI y Llama 3 de Meta, Mistral Large es considerado el segundo modelo de lenguaje comercial más capaz del mundo, después de GPT-4 de OpenAI. Mistral 7B, introducido en septiembre de 2023, afirma superar a Llama en varios benchmarks y iguala de cerca el rendimiento de CodeLlama 7B en tareas de codificación.
¿Qué innovaciones revelará Mistral a continuación? Pronto lo sabremos.