Тонкая настройка является ключевым элементом повышения качества выходных данных крупных языковых моделей (LLM) и их соответствия специфическим потребностям бизнеса. Правильно выполненная настройка приводит к более точным и ценным ответам модели, позволяя организациям максимально эффективно использовать генеративные AI-приложения. Однако тонкая настройка может быть дорогостоящей, создавая преграды для некоторых предприятий, стремящихся воспользоваться этими продвинутыми возможностями.
Mistral, поставщик открытых AI-моделей, ценность которого стремительно приближается к 6 миллиардов долларов всего через 14 месяцев после запуска, выходит на рынок тонкой настройки. Их новая платформа для разработчиков AI, La Plateforme, вводит расширенные инструменты настройки, которые упрощают процессы тонкой настройки, снижают затраты на обучение и уменьшают барьеры для входа.
Названный в честь сильного ветра на юге Франции, Mistral вносит значительные изменения в AI-ландшафт, постоянно внедряя инновации и привлекая значительные инвестиции. В недавнем блоге компания подчеркивает, что тонкая настройка меньших моделей для определенных областей может улучшить производительность, минимизировать затраты на развертывание и ускорить скорость приложений.
Индивидуальная настройка моделей Mistral для повышенной настройки
Mistral зарекомендовал себя, выпуская мощные LLM под лицензиями открытого кода, позволяя свободную адаптацию. Также предлагаются платные услуги, включая API и платформу для разработчиков La Plateforme. Это позволяет пользователям создавать приложения с использованием моделей Mistral без необходимости в сложных серверных настройках; они могут выполнять API-запросы для использования возможностей Mistral.
Теперь клиенты могут настраивать модели Mistral на La Plateforme, использовать исходный код от Mistral на GitHub или получать доступ к индивидуальным услугам обучения. Для разработчиков, желающих работать независимо на своей инфраструктуре, Mistral представил легковесную кодовую базу mistral-finetune, которая использует парадигму LoRA для минимизации числа обучаемых параметров.
Mistral отмечает: “С помощью mistral-finetune вы можете тонко настраивать все наши модели с открытым исходным кодом на вашей инфраструктуре, не жертвуя производительностью или эффективностью памяти.”
Для тех, кто заинтересован в безсерверной тонкой настройке, Mistral предлагает новые услуги, использующие усовершенствованные методы исследований и разработок. Адаптеры LoRA помогают сохранить базовые знания моделей, позволяя эффективное развертывание.
Mistral описывает это как значительный шаг вперед, делая сложные научные методы доступными для разработчиков AI-приложений, что позволяет быстро и экономично настраивать модели. Услуги тонкой настройки совместимы с моделью Mistral 7B, имеющей 7,3 миллиарда параметров, а также с Mistral Small. Текущие пользователи могут использовать API Mistral для немедленной настройки, с планами представить больше моделей для тонкой настройки в ближайшие недели.
Кроме того, индивидуальные услуги обучения Mistral оптимизируют AI-модели под конкретные приложения, используя собственные данные и часто применяя современные техники, такие как непрерывное предобучение для внедрения специализированных знаний. Этот подход способствует разработке высокоспециализированных и эффективных моделей, адаптированных к определенным областям.
Чтобы отметить эти новые предложения, Mistral запустил хакатон по тонкой настройке AI, который продлится до 30 июня, поощряя разработчиков экспериментировать с инновационным API для тонкой настройки стартапа.
Ненадежный рост и инновации Mistral
С момента своего создания в апреле 2023 года бывшими сотрудниками Google DeepMind и Meta, Артуром Меншом, Гильомом Лампляем и Тимоте Лакруа, Mistral быстро растет. Компания привлекла рекордные 118 миллионов долларов в рамках посевного раунда — крупнейшего в истории Европы — и быстро сформировала партнерские отношения с крупными игроками, такими как IBM. В феврале Mistral Large был представлен в сотрудничестве с Microsoft на облачной платформе Azure.
Недавно SAP и Cisco объявили о поддержке Mistral, а в прошлом месяце компания запустила Codestral, свою первую модель LLM, ориентированную на код, утверждая, что она превосходит всех конкурентов. Mistral также близок к значительному раунду финансирования в размере 600 миллионов долларов, что повысит его оценку до 6 миллиардов долларов.
Выступая в качестве прямого конкурента OpenAI и Meta с Llama 3, Mistral Large считается второй по мощи коммерческой языковой моделью в мире, уступая лишь GPT-4 от OpenAI. Mistral 7B, представленная в сентябре 2023 года, утверждает, что превышает Llama по нескольким параметрам и близка к производительности CodeLlama 7B в задачах программирования.
Какие инновации представит Mistral в следующий раз? Скоро узнаем.