Mistral最先端のコード生成LLM「コデストラル」を発表 — 競合を凌駕する性能を誇る

今日、パリを拠点とするAIスタートアップMistralは、昨年のヨーロッパで最大のシードラウンドで注目を集めた企業であり、初のコード重視の大規模言語モデル(LLM)「Codestral」を発表しました。

Codestralは非商業ライセンスのもとで利用可能で、220億のパラメーターを持つオープンウェイトの生成AIモデルです。コーディングタスク、例えばコード生成や実装などを得意としています。Mistralによると、このモデルは80以上のプログラミング言語をサポートしており、革新的なAIアプリケーションを開発したいソフトウェア開発者にとって重要なリソースとなります。同社は、CodestralがCodeLlama 70BやDeepseek Coder 33Bなどの既存のコーディングモデルを上回っていると主張しており、JetBrainsやSourceGraph、LlamaIndexなどの業界リーダーによって採用されています。

開発者のための高性能ツール

Codestral 22Bは32Kのコンテキスト長を備えており、開発者がさまざまな環境やプロジェクトでコードと対話する能力を向上させます。このモデルは80以上のプログラミング言語に基づくデータセットで訓練されており、コードの生成、関数の補完、テストの作成、部分的なコードの補完など、さまざまなコーディングタスクに対応可能です。サポートされている言語には、SQLやPython、Java、C、C++などの一般的な選択肢に加え、SwiftやFortranなどのニッチな選択肢も含まれます。Mistralは、Codestralが開発者の生産性を向上させ、ワークフローを効率化し、アプリケーション開発におけるエラーを減少させると主張しています。

モデルは公開テストを待っている段階ですが、MistralはCodeLlama 70B、Deepseek Coder 33B、Llama 3 70Bなどの既存モデルに対し大きな上回りを見せると自信を持っています。

優れたパフォーマンス指標

リポベンチで、長距離リポジトリレベルのPythonコード完了を評価するために作られた値で、Codestralは34%の精度スコアを達成し、全競合を上回りました。また、Pythonコード生成用のHumanEvalや出力予測のためのCruxEvalにおいても、81.1%および51.3%というスコアを記録し、Bash、Java、PHPのHumanEvalでも他のモデルを凌駕しました。C++、C、Typescriptにおけるパフォーマンスはわずかに劣っていましたが、すべてのテストにおいて平均61.5%のスコアを挙げ、Llama 3 70Bの61.2%を上回りました。SQLのSpider評価では、63.5%で第二位となりました。

コード生成やAIアプリケーション開発のための重要なツールであるLlamaIndex、LangChain、Continue.dev、Tabnine、JetBrainsなどは、すでにCodestralのテストを開始しています。LangChainのCEOで共同創業者のハリソン・チェイス氏は、「初期のテストから、これがコード生成ワークフローに最適な選択肢であることがわかりました。その速度、好ましいコンテクストウィンドウ、ツール使用のサポートにより、最初から優れたパフォーマンスを発揮しました」と述べています。

Codestralを活用する方法

Mistralは、Hugging Faceで非商業ライセンスのもとCodestral 22Bを提供しており、開発者は商業利用やテスト、研究支援にこの技術を使用できます。また、二つのAPIエンドポイントも用意されています。codestral.mistral.aiはIDE内でのInstructまたはFill-In-the-Middleルートを想定しており、開発者が管理するAPIキーを使った8週間の無料ベータ版があります。api.mistral.aiは、より広範な研究、バッチクエリ、第三者アプリケーション開発向けで、コストはトークンごとに請求されます。

開発者は、Mistralの指示バージョンを備えた無料の会話インターフェース「Le Chat」を通じてCodestralの機能を探求できます。

Codestralの導入は、企業研究者にとってソフトウェア開発を加速するための重要な選択肢を提供しますが、最近のStarCoder2やOpenAI、Amazonのオファーとのパフォーマンス比較が今後の注目ポイントとなりそうです。OpenAIのCodexはGitHub Copilotを支えており、AmazonのCodeWhisperも主要な競合です。また、OpenAIのChatGPTはコーディングツールとしても増々使用されており、そのGPT-4 TurboモデルがCognitionの半自律型コーディングエージェントDevinを支えています。競争環境には、複数の小型AIコーディングモデルを提供するReplitや、6500万ドルのSiriーズB資金調達を受けて5億ドルで評価されたCodeniumも含まれています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles