Новая экономичная модель AI2: открытые и мощные решения для всех

Home Новости ИИ Новая экономичная модель AI2: открытые и мощные решения для всех

Updated on сентябрь 9 2024

Институт Аллена ИИ (AI2) в сотрудничестве с Contextual AI представил инновационную открытую языковую модель (LLM) под названием OLMoE. Эта модель направлена на сочетание высокой производительности и экономической эффективности.

OLMoE использует разреженную архитектуру смешанной модели экспертов (MoE) и содержит 7 миллиардов параметров, из которых активно задействуется только 1 миллиард для каждого входного токена. Доступны две версии: OLMoE-1B-7B для общего использования и OLMoE-1B-7B-Instruct для настройки по инструкциям.

В отличие от многих других моделей MoE, OLMoE полностью с открытым исходным кодом. AI2 подчеркивает, что доступ к другим моделям MoE затруднен из-за их непрозрачности в отношении данных для обучения, кода и методов конструкций. «Большинство моделей MoE являются закрытыми, предоставляя ограниченные сведения о своих данных для обучения и методологиях, что препятствует разработке экономически эффективных открытых MoE, которые могли бы конкурировать с закрытыми моделями», — заявили в AI2 в своей статье. Эта нехватка доступности создает значительные преграды для исследователей и ученых.

Натан Ламбер, исследователь AI2, отметил на X (бывший Twitter), что OLMoE может поддерживать разработку политики, служа основным инструментом, когда академические кластеры H100 станут доступны. Он акцентировал внимание на приверженности AI2 к выпуску конкурентоспособных открытых моделей, заявив: «Мы улучшили нашу инфраструктуру и данные, не изменив при этом наши основные цели. Эта модель действительно передовая, а не просто лучшая по нескольким оценкам».

Создание OLMoE

При разработке OLMoE AI2 применил подход с тонкой маршрутизацией, используя 64 небольших эксперта, из которых активируется только восемь в любой момент времени. Эта конфигурация обеспечила производительность, сопоставимую с другими моделями, при значительно сниженных затратах на вывод и требованиях к памяти.

OLMoE является продолжением предыдущей открытой модели AI2, OLMO 1.7-7B, которая поддерживала контекстное окно размером 4096 токенов и использовала набор данных Dolma 1.7 для обучения. OLMoE включает разнообразные наборы данных, включая подмножества из Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg и Wikipedia.

AI2 утверждает, что OLMoE «превосходит все существующие модели с аналогичным количеством активных параметров, даже превосходя более крупные, такие как Llama2-13B-Chat и DeepSeekMoE-16B». Результаты бенчмарков показывают, что OLMoE-1B-7B часто конкурирует с моделями с 7 миллиардами параметров или более, такими как Mistral-7B, Llama 3.1-B и Gemma 2. В тестах против моделей с 1 миллиардом параметров OLMoE-1B-7B значительно превзошла другие открытые модели, включая Pythia, TinyLlama и даже собственную модель AI2 – OLMO.

Плюсы открытых MoE

Миссия AI2 включает в себя улучшение доступа к полностью открытым моделям ИИ, особенно в контексте архитектуры MoE, набирающей популярность. Многие разработчики обращаются к системам MoE, о чем свидетельствуют Mixtral 8x22B от Mistral и Grok от X.ai, с обсуждениями использования MoE в GPT-4. Однако AI2 и Contextual AI подчеркивают, что многие существующие модели ИИ не обеспечивают полной прозрачности в отношении своих данных и кодов.

AI2 подчеркивает необходимость открытости в моделях MoE, которые вводят уникальные проектные вызовы, такие как определение соотношения общего и активных параметров, выбор между множеством небольших экспертов или меньшим числом крупных, распределение экспертов и выбор подходящих алгоритмов маршрутизации.

Кроме того, Open Source Initiative активно рассматривает, что такое открытость для моделей ИИ, подчеркивая важность прозрачности для продвижения этой области.

ServiceNow запускает библиотеку настраиваемых агентов ИИ для предприятий, адаптированную под ваши рабочие процессы.

LightEval: Открытый инструмент от Hugging Face для повышения ответственности ИИ

Most people like

How Old Do I Look?

147.9K

Быстрые и простые методы определения возраста по лицу

Искусственный интеллект по определению возраста по лицу AI Image Recognition

OpenAssistantGPT

12.8K

Представляем универсальную платформу для создания интеллектуальных чат-ботов. Если вы стремитесь улучшить обслуживание клиентов, оптимизировать коммуникацию или автоматизировать задачи, наше решение предлагает инструменты для проектирования, настройки и развертывания чат-ботов, которые заинтересуют пользователей и обеспечат результаты.

чат-боты AI Chatbot

Jobtensor

76.2K

Откройте для себя инновационную платформу для поиска работы с поддержкой ИИ, созданную специально для карьеры в области ИТ, науки и инженерии. Эта платформа без труда соединяет талантливых специалистов с ведущими работодателями, упрощая процесс поиска работы и максимизируя возможности в этих востребованных областях. Если вы ищете следующий шаг в карьере или хотите нанять лучший талант, наши интеллектуальные алгоритмы помогут вам быстрее найти идеальное совпадение, чем когда-либо.

Доска объявлений о вакансиях в сфере ИИ AI Recruiting

SHRED: Home & Gym Workouts App

33.4K

Представляем персонализированное приложение для тренировок, разработанное как для домашних занятий, так и для тренажерных залов. С помощью этого инновационного приложения вы можете адаптировать свою фитнес-программу под индивидуальные потребности, будь то наращивание силы, улучшение выносливости или увеличение гибкости. Подготовьтесь поднять уровень ваших тренировок и достигнуть фитнес-целей с программой, соответствующей вашему стилю жизни!

Фитнес Fitness

Find AI tools in YBX