Mistral推出Codestral Mamba:加速擴展程式碼生成速度

資金充裕的法國人工智慧初創公司 Mistral,以其先進的開源 AI 模型聞名,近期推出兩款新型大型語言模型(LLMs):一款專注於數學的模型和一款為開發者設計的程式碼生成模型,均基於去年研究人員介紹的創新 Mamba 架構。

Mamba 的目標是提升傳統轉換器架構的效率,通過精簡注意力機制來實現。這一進步使基於 Mamba 的模型能夠獲得更快的推理時間,並支持更長的上下文,從而與典型的轉換器模型區別開來。其他公司,如 AI21 也已發布採用該架構的 AI 模型。

Mistral 的新款 Codestral Mamba 7B 設計為快速響應,即使輸入文本較長,仍適合本地編程項目。該模型可在 Mistral 的 la Plateforme API 上使用,處理最多達 256,000 個令牌,這是 OpenAI 的 GPT-4 的兩倍容量。

在基準測試中,Codestral Mamba 的表現超過了多個競爭對手的開源模型,如 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek,在 HumanEval 評估中均有優異成績。

開發者可以通過其 GitHub 和 HuggingFace 倉庫在 Apache 2.0 開源許可下修改和部署 Codestral Mamba。Mistral 也表示,早期版本的 Codestral 已經超越其他代碼生成器,包括 CodeLlama 70B 和 DeepSeek Coder 33B。

隨著 AI 驅動的代碼生成和編碼助手工具成為必需應用,像 GitHub 的 Copilot、Amazon 的 CodeWhisperer 和 Codenium 等平台也逐漸受到關注。

Mistral 的第二款產品 Mathstral 7B 專注於數學推理和科學發現,並與 Project Numina 合作開發。Mathstral 擁有 32k 的上下文窗口,在 Apache 2.0 開源許可下運行,並在所有現有的數學推理模型中表現卓越。它在需要大量推理計算的基準測試中提供了「顯著更佳的結果」,用戶可以選擇直接使用或根據特定需求進行微調。

Mistral 在部落格中分享道:「Mathstral 展現了為專門應用構建模型時,性能與速度的優良平衡——這是我們在 la Plateforme 所堅持的理念,尤其是在其增強的微調能力方面。」

Mathstral 可通過 Mistral 的 la Plateforme 和 HuggingFace 獲得。

在與 OpenAI 和 Anthropic 等行業領導者的競爭中,Mistral 最近獲得了 6.4 億美元的 B 輪融資,使其估值接近 60 億美元,並吸引了包括 Microsoft 和 IBM 在內的科技巨頭投資。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles