Mistral AI совершает дебют в области мультимодальности с запуском Pixtral 12B — первой модели этого французского стартапа, которая сочетает в себе возможности обработки языка и визуальных данных. Это развитие позволяет Mistral конкурировать с такими крупными игроками, как OpenAI и Anthropic.
На данный момент Pixtral 12B недоступен в публичном доступе, однако разработчики могут загрузить его исходный код с Hugging Face или GitHub для индивидуального тестирования. В отличие от обычных протоколов выпуска ИИ, Mistral сначала предоставил торрент-ссылку для загрузки файлов модели.
София Янг, руководитель отдела взаимодействия с разработчиками, анонсировала в посте на X, что модель скоро станет доступна через веб-чат-бот Mistral, что позволит разработчикам экспериментировать с её функционалом. Кроме того, она будет интегрирована в платформу Mistral, предоставляя API-эндпоинты для доступа к моделям компании.
Что предлагает Pixtral 12B?
Хотя конкретные данные о тренировочных данных пока не разглашаются, Pixtral 12B нацелен на упрощение анализа изображений в сочетании с текстовыми подсказками. Пользователи смогут загружать изображения или предоставлять ссылки и задавать вопросы о содержимом.
Хотя это первая мультимодальная модель Mistral, важно отметить, что конкуренты, такие как OpenAI и Anthropic, уже обладают аналогичными возможностями. Когда Янг говорила о уникальных функциях Pixtral, она подчеркнула, что модель может обрабатывать произвольное количество изображений различных размеров.
Первоначальные тестеры на X отметили, что 24 ГБ модель обладает мощной архитектурой, включающей 40 слоев, 14,336 скрытых размерностей и 32 головы внимания для улучшенной вычислительной обработки. Специальный визуальный энкодер поддерживает изображения с разрешением до 1024×1024 и включает 24 скрытых слоя для глубокого анализа изображений.
Поскольку Mistral готовится выпустить модель через API, её потенциал для визуальных приложений, таких как анализ контента и данных, станет более очевидным. Точные показатели производительности этой открытой модели еще предстоит определить, но она символизирует амбициозные планы Mistral в области ИИ.
С момента своего основания в прошлом году Mistral быстро развила ряд моделей, чтобы бросить вызов лидерам отрасли, таким как OpenAI. Также компания установила стратегические партнерства с крупными игроками, такими как Microsoft, AWS и Snowflake, чтобы расширить доступ к своим технологиям. Недавно Mistral привлекла 640 миллионов долларов при оценке в 6 миллиардов долларов и представила Mistral Large 2 — модель уровня GPT-4 с расширенными мультиязычными возможностями, улучшенным логическим мышлением, генерацией кода и математическими способностями.
Кроме того, компания запустила Mixtral, модель, основанную на смеси экспертов, и Codestral, открытую модель кодирования с 22 миллиардами параметров, наряду с моделью, специально разработанной для математического анализа и научных открытий.