今天,总部位于巴黎的AI初创公司Mistral,在去年以创纪录的种子轮融资引起关注后,正式推出了其首个专注于代码开发的大型语言模型Codestral。这一非商业许可下的新模型,以220亿参数的开放权重生成AI为基础,专注于各种编码任务,包括代码生成与实现。
Codestral支持超过80种编程语言,成为软件开发人员构建创新AI应用的重要工具。Mistral宣称,Codestral的性能超越了以往的编码模型,如CodeLlama 70B和Deepseek Coder 33B,目前已被JetBrains、SourceGraph和LlamaIndex等行业领军企业采用。
开发者的高性能工具
Codestral 22B的上下文长度达到32K,使开发者能在各种环境和项目中高效处理代码。它经过训练的数据集涵盖80多种编程语言,适合多样化的编码任务,比如从头生成代码、函数补全、单元测试以及填补部分代码的空缺。支持的语言包括SQL、Python、Java、C、C++及Swift和Fortran等小众选项。
Mistral表示,Codestral将提升开发者的生产力,简化工作流程,节省大量时间,并降低应用开发中的错误概率。尽管该模型刚刚发布并待进行公共测试,Mistral对其性能充满信心,认为在大多数编程语言中均优于CodeLlama 70B、Deepseek Coder 33B和Llama 3 70B等现有模型。
出色的性能指标
在RepoBench的Python代码补全测试中,Codestral取得了34%的准确率,领先所有竞争对手。在HumanEval的Python代码生成和CruxEval的输出预测中,分别获得了81.1%和51.3%的优异成绩。此外,在HumanEval的Bash、Java和PHP测试中,Codestral也表现出色。
尽管在C++、C和Typescript中的表现稍有不足,但在所有测试中的平均得分为61.5%,略高于Llama 3 70B的61.2%。在SQL的Spider评估中,Codestral以63.5%的得分排名第二。
许多知名的开发者生产力和AI应用开发工具,如LlamaIndex、LangChain、Continue.dev、Tabnine和JetBrains,已开始测试Codestral。
LangChain的首席执行官兼共同创始人哈里森·蔡斯(Harrison Chase)表示:“根据我们初步测试,Codestral在代码生成工作流程中表现出色,速度快,上下文窗口合适,支持工具的使用。我们与LangGraph一起测试了其自我修正代码生成功能,效果非常好。”
开始使用Codestral
Mistral在Hugging Face上以非生产许可证提供Codestral 22B,允许开发者在非商业用途、测试和研究支持中使用该技术。同时提供两个API端点:
- codestral.mistral.ai:用于IDE中的Instruct或Fill-In-the-Middle路线,提供在八周内的免费测试中由用户管理的API密钥;
- api.mistral.ai:适用于更广泛的研究、大批量查询或第三方应用开发,按token计费。
开发者还可以通过Mistral的免费对话界面Le Chat探索Codestral的功能,Le Chat使用了该模型的指导版本。
Mistral推出Codestral为企业研究者加速软件开发提供了重要选择,但与近期推出的StarCoder2及OpenAI、亚马逊的其他代码中心模型相比,其表现仍待评估。OpenAI的Codex(支撑GitHub Copilot)和亚马逊的CodeWhisper是主要竞争对手。此外,OpenAI的ChatGPT也逐渐被用作编码工具,GPT-4 Turbo模型支持半自动编码代理Devin,而Replit也在提供多个小型AI编码模型,Codenium最近经过6500万美元的B轮融资后估值达到5亿美元。