Mistral Lança o Codestral Mamba: Acelerando e Ampliando a Velocidade de Geração de Código

A bem financiada startup francesa de IA, Mistral, reconhecida por seus avançados modelos de IA de código aberto, lançou dois novos modelos de linguagem de grande escala (LLMs): um modelo focado em matemática e um modelo de geração de código voltado para desenvolvedores, ambos baseados na inovadora arquitetura Mamba, apresentada por pesquisadores no ano passado.

A arquitetura Mamba visa aprimorar a eficiência das arquiteturas de transformadores tradicionais, tornando os mecanismos de atenção mais ágeis. Essa inovação permite que os modelos baseados em Mamba apresentem tempos de inferência mais rápidos e suportem contextos mais longos, diferenciando-se dos modelos típicos de transformadores. Outras empresas, como a AI21, também lançaram modelos de IA utilizando essa arquitetura.

O novo modelo Codestral Mamba 7B da Mistral é projetado para tempos de resposta rápidos, mesmo com textos de entrada mais extensos, tornando-o ideal para projetos de programação locais. Disponível na API la Plateforme da Mistral, ele pode processar entradas de até 256.000 tokens—o dobro da capacidade do GPT-4 da OpenAI.

Em testes de benchmark, o Codestral Mamba superou vários modelos de código aberto concorrentes, como CodeLlama 7B, CodeGemma-1.17B e DeepSeek em avaliações de HumanEval. Os desenvolvedores podem modificar e implementar o Codestral Mamba através do seu repositório no GitHub e na HuggingFace sob uma licença Apache 2.0 de código aberto. A Mistral afirma que a versão anterior do Codestral superou outros geradores de código, incluindo CodeLlama 70B e DeepSeek Coder 33B.

Ferramentas de geração de código e assistentes de programação baseadas em IA tornaram-se aplicações essenciais, com plataformas como o Copilot do GitHub, o CodeWhisperer da Amazon e o Codenium ganhando popularidade.

O segundo lançamento da Mistral, Mathstral 7B, é voltado para raciocínio matemático e descoberta científica, desenvolvido em colaboração com o Project Numina. Com uma janela de contexto de 32k, o Mathstral opera sob uma licença de código aberto Apache 2.0 e superou todos os modelos existentes de raciocínio matemático, apresentando "resultados significativamente melhores" em benchmarks que exigem cálculos extensivos durante a inferência. Os usuários podem optar por utilizá-lo como está ou ajustá-lo para necessidades específicas.

“Mathstral exemplifica as excelentes compensações entre desempenho e velocidade que podem ser alcançadas ao construir modelos para aplicações especializadas—uma filosofia que seguimos na la Plateforme, especialmente com suas capacidades aprimoradas de ajuste fino,” compartilhou a Mistral em um post no blog.

O Mathstral está acessível através da la Plateforme da Mistral e da HuggingFace. Competindo de forma acirrada com líderes do setor como OpenAI e Anthropic, a Mistral recentemente garantiu $640 milhões em financiamento da Série B, elevando sua avaliação para quase $6 bilhões, com investimentos de gigantes da tecnologia como Microsoft e IBM.

Most people like

Find AI tools in YBX