Hoje, a Mistral, uma startup de IA baseada em Paris que ganhou destaque com a maior rodada de investimento semente na Europa no ano passado, entrou na arena de programação e desenvolvimento com o lançamento do Codestral, seu modelo de linguagem grande (LLM) focado em código.
Agora disponível sob uma licença não comercial, o Codestral apresenta um modelo de IA generativa com 22 bilhões de parâmetros e pesos abertos, destacando-se em tarefas de codificação, desde geração de código até implementação. A Mistral afirma que este modelo suporta mais de 80 linguagens de programação, tornando-se um recurso vital para desenvolvedores de software que buscam criar aplicações inovadoras em IA. A empresa garante que o Codestral supera modelos de codificação anteriores, incluindo o CodeLlama 70B e o Deepseek Coder 33B, e está sendo adotado por líderes do setor como JetBrains, SourceGraph e LlamaIndex.
Uma Ferramenta de Alto Desempenho para Desenvolvedores
O Codestral 22B possui um comprimento de contexto de 32K, permitindo que os desenvolvedores interajam com código em diversos ambientes e projetos. Treinado em um conjunto de dados que abrange mais de 80 linguagens de programação, está bem preparado para diversas tarefas de codificação, como geração de código do zero, complementação de funções, escrita de testes e preenchimento de lacunas em código parcial. Entre as linguagens suportadas, destacam-se opções populares como SQL, Python, Java, C e C++, além de opções específicas como Swift e Fortran.
A Mistral alega que o Codestral pode aumentar a produtividade dos desenvolvedores, otimizar fluxo de trabalho e economizar tempo considerável, ao mesmo tempo reduzindo a probabilidade de erros no desenvolvimento de aplicações. Embora o modelo tenha sido recentemente lançado e aguarde testes públicos, a Mistral está confiante de que ele supera os modelos atuais, como CodeLlama 70B, Deepseek Coder 33B e Llama 3 70B, na maioria das linguagens de programação.
Métricas de Desempenho Impressionantes
No RepoBench, projetado para avaliar a conclusão de código Python em repositórios de longo alcance, o Codestral alcançou uma precisão de 34%, superando todos os concorrentes. Também se destacou no HumanEval para geração de código Python e no CruxEval para previsão de saída, com pontuações de 81,1% e 51,3%, respectivamente. Além disso, superou outros modelos no HumanEval para Bash, Java e PHP.
Embora seu desempenho em C++, C e Typescript tenha sido um pouco menor, sua pontuação média de 61,5% em todos os testes ficou à frente da pontuação de 61,2% do Llama 3 70B. Na avaliação Spider para SQL, ocupou o segundo lugar com 63,5%.
Ferramentas proeminentes para produtividade de desenvolvedores e desenvolvimento de aplicações em IA, como LlamaIndex, LangChain, Continue.dev, Tabnine e JetBrains, já iniciaram testes com o Codestral. “Nos nossos testes iniciais, é uma excelente opção para fluxos de trabalho de geração de código devido à sua velocidade, janela de contexto favorável e suporte ao uso de ferramentas. Testamos com LangGraph para geração de código autocorretiva, e teve um desempenho excepcional desde o início”, disse Harrison Chase, CEO e cofundador da LangChain.
Começando com Codestral
A Mistral oferece o Codestral 22B no Hugging Face sob uma licença não produtiva, permitindo que desenvolvedores utilizem a tecnologia para fins não comerciais, testes e suporte à pesquisa.
Estão disponíveis dois endpoints de API: codestral.mistral.ai, destinado a rotas Instruct ou Fill-In-the-Middle dentro de IDEs, fornecendo uma chave de API gerenciada pelo usuário durante um beta gratuito de oito semanas; e api.mistral.ai, para pesquisas mais amplas, consultas em lote ou desenvolvimento de aplicações de terceiros, com custos cobrados por token.
Os desenvolvedores podem explorar as capacidades do Codestral através do Le Chat, a interface conversacional gratuita da Mistral, que apresenta uma versão instruída do modelo.
A introdução do Codestral pela Mistral representa uma opção significativa para pesquisadores empresariais acelerarem o desenvolvimento de software, mas seu desempenho em comparação com outros modelos centrados em código, como o StarCoder2, lançado recentemente, ou ofertas da OpenAI e Amazon, ainda está por ser avaliado.
O Codex da OpenAI, que alimenta o GitHub Copilot, e o CodeWhisper da Amazon são concorrentes chave. Além disso, o ChatGPT da OpenAI está sendo cada vez mais utilizado como ferramenta de codificação, enquanto seu modelo GPT-4 Turbo impulsiona o Devin, um agente de codificação semi-autônomo da Cognition. O cenário competitivo também inclui a Replit, que oferece diversos pequenos modelos de codificação em IA, e a Codenium, recentemente avaliada em $500 milhões após uma rodada de investimento Série B de $65 milhões.