Новая экономичная модель AI2: открытые и мощные решения для всех

Home Новости ИИ Новая экономичная модель AI2: открытые и мощные решения для всех

Updated on сентябрь 9 2024

Институт Аллена ИИ (AI2) в сотрудничестве с Contextual AI представил инновационную открытую языковую модель (LLM) под названием OLMoE. Эта модель направлена на сочетание высокой производительности и экономической эффективности.

OLMoE использует разреженную архитектуру смешанной модели экспертов (MoE) и содержит 7 миллиардов параметров, из которых активно задействуется только 1 миллиард для каждого входного токена. Доступны две версии: OLMoE-1B-7B для общего использования и OLMoE-1B-7B-Instruct для настройки по инструкциям.

В отличие от многих других моделей MoE, OLMoE полностью с открытым исходным кодом. AI2 подчеркивает, что доступ к другим моделям MoE затруднен из-за их непрозрачности в отношении данных для обучения, кода и методов конструкций. «Большинство моделей MoE являются закрытыми, предоставляя ограниченные сведения о своих данных для обучения и методологиях, что препятствует разработке экономически эффективных открытых MoE, которые могли бы конкурировать с закрытыми моделями», — заявили в AI2 в своей статье. Эта нехватка доступности создает значительные преграды для исследователей и ученых.

Натан Ламбер, исследователь AI2, отметил на X (бывший Twitter), что OLMoE может поддерживать разработку политики, служа основным инструментом, когда академические кластеры H100 станут доступны. Он акцентировал внимание на приверженности AI2 к выпуску конкурентоспособных открытых моделей, заявив: «Мы улучшили нашу инфраструктуру и данные, не изменив при этом наши основные цели. Эта модель действительно передовая, а не просто лучшая по нескольким оценкам».

Создание OLMoE

При разработке OLMoE AI2 применил подход с тонкой маршрутизацией, используя 64 небольших эксперта, из которых активируется только восемь в любой момент времени. Эта конфигурация обеспечила производительность, сопоставимую с другими моделями, при значительно сниженных затратах на вывод и требованиях к памяти.

OLMoE является продолжением предыдущей открытой модели AI2, OLMO 1.7-7B, которая поддерживала контекстное окно размером 4096 токенов и использовала набор данных Dolma 1.7 для обучения. OLMoE включает разнообразные наборы данных, включая подмножества из Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg и Wikipedia.

AI2 утверждает, что OLMoE «превосходит все существующие модели с аналогичным количеством активных параметров, даже превосходя более крупные, такие как Llama2-13B-Chat и DeepSeekMoE-16B». Результаты бенчмарков показывают, что OLMoE-1B-7B часто конкурирует с моделями с 7 миллиардами параметров или более, такими как Mistral-7B, Llama 3.1-B и Gemma 2. В тестах против моделей с 1 миллиардом параметров OLMoE-1B-7B значительно превзошла другие открытые модели, включая Pythia, TinyLlama и даже собственную модель AI2 – OLMO.

Плюсы открытых MoE

Миссия AI2 включает в себя улучшение доступа к полностью открытым моделям ИИ, особенно в контексте архитектуры MoE, набирающей популярность. Многие разработчики обращаются к системам MoE, о чем свидетельствуют Mixtral 8x22B от Mistral и Grok от X.ai, с обсуждениями использования MoE в GPT-4. Однако AI2 и Contextual AI подчеркивают, что многие существующие модели ИИ не обеспечивают полной прозрачности в отношении своих данных и кодов.

AI2 подчеркивает необходимость открытости в моделях MoE, которые вводят уникальные проектные вызовы, такие как определение соотношения общего и активных параметров, выбор между множеством небольших экспертов или меньшим числом крупных, распределение экспертов и выбор подходящих алгоритмов маршрутизации.

Кроме того, Open Source Initiative активно рассматривает, что такое открытость для моделей ИИ, подчеркивая важность прозрачности для продвижения этой области.

ServiceNow запускает библиотеку настраиваемых агентов ИИ для предприятий, адаптированную под ваши рабочие процессы.

LightEval: Открытый инструмент от Hugging Face для повышения ответственности ИИ

Most people like

ImgGen AI

335.4K

Откройте для себя мощный бесплатный генератор изображений на основе ИИ и инструмент для их улучшения, созданный для того, чтобы преображать ваши визуальные материалы без усилий. Хотите ли вы создать потрясающую графику или улучшить существующие изображения, это инновационное решение позволяет пользователям реализовать свои творческие идеи с помощью современных технологий.

Генератор изображений на базе ИИ Text to Image

Blainy

29.6K

Представляем нашего AI-генератора научных работ: идеальный инструмент для академического успеха В современном быстром академическом мире создание качественных научных работ может быть сложной задачей. Наш AI-генератор научных работ создан для упрощения процесса написания, предоставляя вам качественно подготовленный контент, адаптированный к вашим конкретным потребностям. Независимо от того, студент вы, стремящийся к успеху, или профессионал, желающий повысить эффективность своего письма, наш инновационный инструмент сочетает передовые технологии искусственного интеллекта и обработки естественного языка для создания хорошо исследованных, артикулированных работ в кратчайшие сроки. Ощутите будущее академического письма и поднимите свой исследовательский результат на новый уровень!

Автор научных работ Writing Assistants

Tars

163.2K

Tars — это инновационная платформа, разработанная для повышения вовлеченности клиентов и поддержки с помощью современных чат-ботов на базе искусственного интеллекта. Оптимизируя взаимодействия, Tars помогает компаниям предоставлять персонализированную помощь и улучшать пользовательский опыт.

платформа чат-ботов AI Chatbot

Documind

27.8K

Революционный инструмент для быстрого и эффективного поиска документов.

поиск документов AI Chatbot

Find AI tools in YBX