На конференции Cloud Next компания Google представила ряд новинок в области искусственного интеллекта, а Mistral AI, восходящая звезда в этой сфере, запустила свою последнюю модель смешанного обучения с разреженной сетью экспертов (SMoE) - Mixtral 8x22B. Вместо привычного демонстрационного видео или блога, как это делают конкуренты, стартап из Парижа выбрал необычный подход, опубликовав торрент-ссылку в X, что позволяет пользователям легко загрузить и протестировать новую модель напрямую.
Этот выпуск стал третьим значительным анонсом Mistral всего за несколько дней после запуска GPT-4 Turbo с возможностями восприятия и Gemini 1.5 Pro. Также Meta анонсировала грядущий запуск Llama 3 в следующем месяце.
Торрент файл Mistral включает четыре компонента общей емкостью 262 ГБ, и хотя подробности о возможностях Mixtral 8x22B пока не раскрыты, энтузиасты ИИ выразили восхищение её потенциалом. Тем не менее, запуск модели локально может быть затруднен. Как заметил один из пользователей Reddit: «Когда я купил свой Macbook M1 Max, думал, что 32 ГБ будет достаточно… Я никогда не думал, что мой интерес к ИИ сделает это недостаточным».
Сразу после анонса Mixtral 8x22B, Mistral сделала модель доступной на Hugging Face для дальнейшей тренировки и развертывания, подчеркнув, что предобученная модель не обладает механизмами модерации. Компания Together AI также предоставила пользователям возможность поэкспериментировать с ней.
Используя подход разреженной сети MoE, Mistral стремится предложить мощное сочетание специализированных моделей, каждая из которых адаптирована для решения конкретных задач, обеспечивая оптимальную производительность и экономию затрат. «На каждом слое для каждого токена маршрутизирующая сеть выбирает двух из этих ‘экспертов’ для обработки токена и комбинирует их выходные данные аддитивно. Этот метод увеличивает количество параметров модели, управляя затратами и задержкой, так как модель активирует лишь часть всех параметров для каждого токена», — поясняет Mistral на своем сайте.
Ранее компания представила Mixtral 8x7B, которая имеет 46,7 миллиарда параметров в целом, но использует только 12,9 миллиарда на токен, что позволяет обрабатывать входные данные и генерировать выходы с той же скоростью и затратами, что и модель на 12,9 миллиарда. В последнем релизе обсуждения на Reddit предполагают общее количество параметров в 130 миллиардов, из которых 38 миллиардов активируются для генерации токенов, если одновременно активированы два эксперта.
Хотя фактическая производительность Mixtral 8x22B по бенчмаркам еще не определена, ожидания высоки. Пользователи полагают, что она превзойдет успех Mixtral, который показал лучшие результаты по сравнению как с Llama 2 70B от Meta, так и с GPT-3.5 от OpenAI по множеству бенчмарков, включая GSM-8K и MMLU, при этом обеспечивая более быстрое время вывода.