Новая экономичная модель AI2: открытые и мощные решения для всех

Институт Аллена ИИ (AI2) в сотрудничестве с Contextual AI представил инновационную открытую языковую модель (LLM) под названием OLMoE. Эта модель направлена на сочетание высокой производительности и экономической эффективности.

OLMoE использует разреженную архитектуру смешанной модели экспертов (MoE) и содержит 7 миллиардов параметров, из которых активно задействуется только 1 миллиард для каждого входного токена. Доступны две версии: OLMoE-1B-7B для общего использования и OLMoE-1B-7B-Instruct для настройки по инструкциям.

В отличие от многих других моделей MoE, OLMoE полностью с открытым исходным кодом. AI2 подчеркивает, что доступ к другим моделям MoE затруднен из-за их непрозрачности в отношении данных для обучения, кода и методов конструкций. «Большинство моделей MoE являются закрытыми, предоставляя ограниченные сведения о своих данных для обучения и методологиях, что препятствует разработке экономически эффективных открытых MoE, которые могли бы конкурировать с закрытыми моделями», — заявили в AI2 в своей статье. Эта нехватка доступности создает значительные преграды для исследователей и ученых.

Натан Ламбер, исследователь AI2, отметил на X (бывший Twitter), что OLMoE может поддерживать разработку политики, служа основным инструментом, когда академические кластеры H100 станут доступны. Он акцентировал внимание на приверженности AI2 к выпуску конкурентоспособных открытых моделей, заявив: «Мы улучшили нашу инфраструктуру и данные, не изменив при этом наши основные цели. Эта модель действительно передовая, а не просто лучшая по нескольким оценкам».

Создание OLMoE

При разработке OLMoE AI2 применил подход с тонкой маршрутизацией, используя 64 небольших эксперта, из которых активируется только восемь в любой момент времени. Эта конфигурация обеспечила производительность, сопоставимую с другими моделями, при значительно сниженных затратах на вывод и требованиях к памяти.

OLMoE является продолжением предыдущей открытой модели AI2, OLMO 1.7-7B, которая поддерживала контекстное окно размером 4096 токенов и использовала набор данных Dolma 1.7 для обучения. OLMoE включает разнообразные наборы данных, включая подмножества из Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg и Wikipedia.

AI2 утверждает, что OLMoE «превосходит все существующие модели с аналогичным количеством активных параметров, даже превосходя более крупные, такие как Llama2-13B-Chat и DeepSeekMoE-16B». Результаты бенчмарков показывают, что OLMoE-1B-7B часто конкурирует с моделями с 7 миллиардами параметров или более, такими как Mistral-7B, Llama 3.1-B и Gemma 2. В тестах против моделей с 1 миллиардом параметров OLMoE-1B-7B значительно превзошла другие открытые модели, включая Pythia, TinyLlama и даже собственную модель AI2 – OLMO.

Плюсы открытых MoE

Миссия AI2 включает в себя улучшение доступа к полностью открытым моделям ИИ, особенно в контексте архитектуры MoE, набирающей популярность. Многие разработчики обращаются к системам MoE, о чем свидетельствуют Mixtral 8x22B от Mistral и Grok от X.ai, с обсуждениями использования MoE в GPT-4. Однако AI2 и Contextual AI подчеркивают, что многие существующие модели ИИ не обеспечивают полной прозрачности в отношении своих данных и кодов.

AI2 подчеркивает необходимость открытости в моделях MoE, которые вводят уникальные проектные вызовы, такие как определение соотношения общего и активных параметров, выбор между множеством небольших экспертов или меньшим числом крупных, распределение экспертов и выбор подходящих алгоритмов маршрутизации.

Кроме того, Open Source Initiative активно рассматривает, что такое открытость для моделей ИИ, подчеркивая важность прозрачности для продвижения этой области.

Most people like

Find AI tools in YBX