Институт Аллена ИИ (AI2) в сотрудничестве с Contextual AI представил инновационную открытую языковую модель (LLM) под названием OLMoE. Эта модель направлена на сочетание высокой производительности и экономической эффективности.
OLMoE использует разреженную архитектуру смешанной модели экспертов (MoE) и содержит 7 миллиардов параметров, из которых активно задействуется только 1 миллиард для каждого входного токена. Доступны две версии: OLMoE-1B-7B для общего использования и OLMoE-1B-7B-Instruct для настройки по инструкциям.
В отличие от многих других моделей MoE, OLMoE полностью с открытым исходным кодом. AI2 подчеркивает, что доступ к другим моделям MoE затруднен из-за их непрозрачности в отношении данных для обучения, кода и методов конструкций. «Большинство моделей MoE являются закрытыми, предоставляя ограниченные сведения о своих данных для обучения и методологиях, что препятствует разработке экономически эффективных открытых MoE, которые могли бы конкурировать с закрытыми моделями», — заявили в AI2 в своей статье. Эта нехватка доступности создает значительные преграды для исследователей и ученых.
Натан Ламбер, исследователь AI2, отметил на X (бывший Twitter), что OLMoE может поддерживать разработку политики, служа основным инструментом, когда академические кластеры H100 станут доступны. Он акцентировал внимание на приверженности AI2 к выпуску конкурентоспособных открытых моделей, заявив: «Мы улучшили нашу инфраструктуру и данные, не изменив при этом наши основные цели. Эта модель действительно передовая, а не просто лучшая по нескольким оценкам».
Создание OLMoE
При разработке OLMoE AI2 применил подход с тонкой маршрутизацией, используя 64 небольших эксперта, из которых активируется только восемь в любой момент времени. Эта конфигурация обеспечила производительность, сопоставимую с другими моделями, при значительно сниженных затратах на вывод и требованиях к памяти.
OLMoE является продолжением предыдущей открытой модели AI2, OLMO 1.7-7B, которая поддерживала контекстное окно размером 4096 токенов и использовала набор данных Dolma 1.7 для обучения. OLMoE включает разнообразные наборы данных, включая подмножества из Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg и Wikipedia.
AI2 утверждает, что OLMoE «превосходит все существующие модели с аналогичным количеством активных параметров, даже превосходя более крупные, такие как Llama2-13B-Chat и DeepSeekMoE-16B». Результаты бенчмарков показывают, что OLMoE-1B-7B часто конкурирует с моделями с 7 миллиардами параметров или более, такими как Mistral-7B, Llama 3.1-B и Gemma 2. В тестах против моделей с 1 миллиардом параметров OLMoE-1B-7B значительно превзошла другие открытые модели, включая Pythia, TinyLlama и даже собственную модель AI2 – OLMO.
Плюсы открытых MoE
Миссия AI2 включает в себя улучшение доступа к полностью открытым моделям ИИ, особенно в контексте архитектуры MoE, набирающей популярность. Многие разработчики обращаются к системам MoE, о чем свидетельствуют Mixtral 8x22B от Mistral и Grok от X.ai, с обсуждениями использования MoE в GPT-4. Однако AI2 и Contextual AI подчеркивают, что многие существующие модели ИИ не обеспечивают полной прозрачности в отношении своих данных и кодов.
AI2 подчеркивает необходимость открытости в моделях MoE, которые вводят уникальные проектные вызовы, такие как определение соотношения общего и активных параметров, выбор между множеством небольших экспертов или меньшим числом крупных, распределение экспертов и выбор подходящих алгоритмов маршрутизации.
Кроме того, Open Source Initiative активно рассматривает, что такое открытость для моделей ИИ, подчеркивая важность прозрачности для продвижения этой области.