资金充裕的法国人工智能初创公司Mistral以其先进的开源AI模型而闻名,最近推出了两款新的大型语言模型(LLMs):一款专注于数学的模型以及一款为开发者设计的代码生成模型。这两款模型均基于去年研究人员推出的创新Mamba架构。
Mamba旨在通过简化注意力机制来提高传统变换器架构的效率。这一进展使得基于Mamba的模型实现了更快的推理速度,并能够支持更长的上下文,从而与普通变换器模型形成差异。其他公司,如AI21,也推出了利用这一架构的AI模型。
Mistral的新款Codestral Mamba 7B专为快速响应而设计,即使处理大型输入文本也表现出色,非常适合本地编码项目。它可以在Mistral的la Plateforme API上使用,支持最大256,000个标记的输入,容量是OpenAI的GPT-4的两倍。
在基准测试中,Codestral Mamba在HumanEval评估中超越了多款竞争对手的开源模型,包括CodeLlama 7B、CodeGemma-1.17B和DeepSeek。开发者可以通过其GitHub仓库和HuggingFace平台根据Apache 2.0开源许可证修改和部署Codestral Mamba。Mistral声称,早期版本的Codestral已超越其他代码生成器,如CodeLlama 70B和DeepSeek Coder 33B。
人工智能驱动的代码生成和编码助手工具已成为必不可少的应用,像GitHub的Copilot、亚马逊的CodeWhisperer以及Codenium等平台正在受到广泛关注。
Mistral的第二款产品Mathstral 7B专注于数学推理和科学发现,与Project Numina合作开发,支持32k的上下文窗口,采用Apache 2.0开源许可证,其表现超过当前所有数学推理模型。在需要重推理时间计算的基准测试中,Mathstral提供了“显著更好的结果”,用户可选择直接使用或根据特定需求进行微调。
Mistral在一篇博客中表示:“Mathstral展示了在为专用应用构建模型时,优秀性能与速度之间的理想平衡,这是我们在la Plateforme中的承诺,特别是在其增强的微调能力方面。”
Mathstral可通过Mistral的la Plateforme和HuggingFace访问。
Mistral与OpenAI和Anthropic等行业领导者展开激烈竞争,最近获得了6.4亿美元的B轮融资,估值接近60亿美元,投资方包括微软和IBM等科技巨头。