Сегодня парижский стартап Mistral, прославившийся крупнейшим в Европе раундом посевного финансирования в прошлом году, вошел в сферу программирования и разработки, представив Codestral — свою первую линейку крупных языковых моделей (LLM), ориентированных на код.
Codestral доступен по некоммерческой лицензии и представляет собой генеративную модель ИИ с 22 миллиардами параметров, превосходно справляющуюся с задачами кодирования, включая генерацию и реализацию кода. Mistral заявляет, что эта модель поддерживает более 80 языков программирования, что делает её важным ресурсом для разработчиков ПО, стремящихся создать инновационные AI-приложения. Компания утверждает, что Codestral превосходит предыдущие модели, такие как CodeLlama 70B и Deepseek Coder 33B, и уже находит применение у таких лидеров отрасли, как JetBrains, SourceGraph и LlamaIndex.
Эффективный инструмент для разработчиков
Codestral 22B имеет длину контекста 32K, что позволяет разработчикам работать с кодом в различных средах и проектах. Обученный на датасете, охватывающем более 80 языков программирования, он отлично подходит для таких задач, как создание кода с нуля, завершение функций, написание тестов и заполнение пробелов в неполном коде. Поддерживаемые языки включают популярные, такие как SQL, Python, Java, C и C++, а также специализированные, например, Swift и Fortran.
Mistral утверждает, что Codestral может повысить продуктивность разработчиков, оптимизировать рабочие процессы и существенно сэкономить время, снижая вероятность ошибок при разработке приложений. Хотя модель только что запущена и ожидает публичного тестирования, Mistral уверен, что она превосходит актуальные модели, включая CodeLlama 70B, Deepseek Coder 33B и Llama 3 70B, в большинстве языков программирования.
Впечатляющие показатели производительности
На RepoBench, предназначенном для оценки долгосрочного выполнения кода на Python, Codestral достиг точности 34%, обогнав всех конкурентов. Кроме того, он показал отличные результаты на HumanEval для генерации кода на Python и CruxEval для предсказания результатов с оценками 81.1% и 51.3% соответственно. Также он превзошел другие модели на HumanEval для Bash, Java и PHP.
Хотя его результаты в C++, C и TypeScript были немного ниже, средний балл 61.5% по всем тестам оказался выше, чем 61.2% для Llama 3 70B. В оценке Spider для SQL он занял второе место с оценкой 63.5%.
Известные инструменты для повышения продуктивности разработчиков и создания AI-приложений, такие как LlamaIndex, LangChain, Continue.dev, Tabnine и JetBrains, начали тестировать Codestral.
"По нашим первоначальным тестированиям, это отличный вариант для рабочих процессов генерации кода благодаря его скорости, хорошему контексту и поддержке использования инструментов. Мы протестировали его с LangGraph для самокоррекции кода, и он показал выдающиеся результаты с самого начала", — отметил Харрисон Чейз, CEO и соучредитель LangChain.
Как начать работу с Codestral
Mistral предлагает Codestral 22B на платформе Hugging Face под некоммерческой лицензией, позволяя разработчикам использовать технологию в некоммерческих целях, для тестирования и научных исследований.
Доступны два API-эндпоинта: codestral.mistral.ai, предназначенный для маршрутов Instruct или Fill-In-the-Middle в IDE, с управляемым API-ключом в рамках восьминедельной бесплатной бета-версии, и api.mistral.ai для более масштабных исследований, пакетных запросов или разработки сторонних приложений, с оплатой по токенам.
Разработчики могут исследовать возможности Codestral через Le Chat — бесплатный conversational interface от Mistral, в котором представлена управляемая версия модели.
Внедрение Codestral от Mistral становится значительным шагом для исследователей в области корпоративного ПО, позволяя ускорить разработку программного обеспечения, однако его эффективность по сравнению с другими моделями, ориентированными на код, такими как StarCoder2 и решения от OpenAI и Amazon, еще предстоит оценить.
Основными конкурентами являются Codex от OpenAI, который поддерживает GitHub Copilot, и CodeWhisper от Amazon. Кроме того, ChatGPT от OpenAI все чаще используется как инструмент кодирования, в то время как его модель GPT-4 Turbo служит движком для Devin, полуаавтономного кода, разработанного Cognition. Конкуренция также включает Replit, предлагающий несколько небольших моделей AI для кодирования, и Codenium, недавно оцененный в 500 миллионов долларов после раунда финансирования Series B на сумму 65 миллионов долларов.