Французский стартап в области ИИ Mistral, известный своими передовыми моделями открытого кода, запустил две новые большие языковые модели (LLMs): модель, ориентированную на математику, и модель для генерации кода для разработчиков, обе основаны на инновационной архитектуре Mamba, представленная исследователями в прошлом году.
Mamba направлена на повышение эффективности традиционных трансформерных архитектур за счет оптимизации механизмов внимания. Это позволяет моделям на базе Mamba достигать более быстрых временных откликов и поддерживать более длинные контексты, отличая их от типичных трансформеров. Другие компании, такие как AI21, также выпустили модели ИИ, использующие эту архитектуру.
Новая модель Codestral Mamba 7B от Mistral предназначена для быстрой обработки даже длинных текстов, что делает ее идеальной для локальных проектов по программированию. Она доступна на API la Plateforme Mistral и может обрабатывать входные данные до 256,000 токенов — в два раза больше, чем у GPT-4 от OpenAI.
В тестах на производительность Codestral Mamba превзошла несколько конкурентных моделей открытого кода, таких как CodeLlama 7B, CodeGemma-1.17B и DeepSeek в оценках HumanEval. Разработчики могут модифицировать и развертывать Codestral Mamba через ее репозиторий на GitHub и HuggingFace под лицензией Apache 2.0. Mistral утверждает, что предыдущая версия Codestral обошла другие генераторы кода, включая CodeLlama 70B и DeepSeek Coder 33B.
Инструменты для генерации кода и помощники по программированию на базе ИИ стали неотъемлемыми приложениями, а платформы, такие как Copilot от GitHub, CodeWhisperer от Amazon и Codenium, набирают популярность.
Вторая модель Mistral, Mathstral 7B, сосредоточена на математическом мышлении и научных открытиях, разработана в сотрудничестве с проектом Numina. С контекстом на 32k символов, Mathstral работает под лицензией Apache 2.0 и превосходит все существующие модели математического анализа. Она демонстрирует «значительно лучшие результаты» в тестах, которые требуют обширных вычислений во время инференса, и пользователи могут выбрать использовать ее в исходном виде или доработать под свои нужды.
«Mathstral является примером отличного соотношения производительности и скорости, достигаемого при создании моделей для специализированных приложений — философия, которой мы придерживаемся в la Plateforme, особенно с улучшенными возможностями настройки,» — отметили в блоге Mistral.
Mathstral доступна через la Plateforme Mistral и HuggingFace.
Конкурируя с лидерами отрасли, такими как OpenAI и Anthropic, Mistral недавно привлек $640 миллионов в рамках раунда финансирования серии B, что повысило его оценку почти до $6 миллиардов с инвестициями от таких технологических гигантов, как Microsoft и IBM.