С повышением интереса к возможностям нового GPT-4o-mini, компания Apple расширила свою коллекцию компактных ИИ моделей, выпустив несколько открытых моделей DataComp для языковых моделей (DCLM) на платформе Hugging Face. В пакет входят две значимые модели: одна с 7 миллиардами параметров и другая с 1,4 миллиарда. Обе модели демонстрируют превосходные результаты в бенчмарках, особенно большая модель, которая превосходит Mistral-7B и быстро приближается к производительности других ведущих открытых моделей, таких как Llama 3 и Gemma.
Вайшаал Шанкар из команды Apple ML называет эти модели «лучшими из доступных» открытых решений. Проект полностью придерживается принципов открытого кода, публикуя веса моделей, код для обучения и наборы данных для предобучения.
Обзор моделей Apple DCLM
Проект DataComp представляет собой совместную инициативу исследователей из Apple, Университета Вашингтона, Тель-Авивского университета и Института исследований Toyota. Его цель — создание высококачественных наборов данных для обучения ИИ моделей, особенно в мультимодальной области. Команда использует стандартизированную структуру с фиксированными архитектурами моделей, кодом для обучения, гиперпараметрами и оценками для тестирования различных стратегий кураторства данных, чтобы оптимизировать производительность модели.
Ранние эксперименты показали, что фильтрация на основе модели — когда модели машинного обучения фильтруют и отбирают качественные данные из больших наборов — играет ключевую роль в сборке превосходных обучающих наборов. Используя эту технику кураторства, команда разработала набор данных DCLM-Baseline, который стал основой для обучения трансформерных моделей с декодером на 7 миллиардов и 1,4 миллиарда параметров с нуля.
Модель 7B, обученная на 2,5 триллионах токенов с использованием рецептов предобучения OpenLM, обладает 2K контекстом и достигает 63,7% точности в 5-shot оценке на бенчмарке MMLU. Это на 6,6 процентных пункта лучше, чем у предыдущего лидера в открытых языковых моделях, MAP-Neo, при этом использовано на 40% меньше вычислительных ресурсов во время обучения.
Критически важно, что её результаты на MMLU находятся вблизи ведущих моделей с открытыми весами, но закрытыми данными, таких как Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Gemma от Google (64,3%) и Phi-3 от Microsoft (69,9%).
Кроме того, когда исследователи увеличили контекст модели до 8K и провели 100 миллиардов дополнительных итераций обучения с использованием техники разложения наборов данных, были замечены дополнительные улучшения производительности в Core и Extended бенчмарках, хотя результаты MMLU остались стабильными.
«Наши выводы подчеркивают важность проектирования наборов данных для обучения языковых моделей и служат основой для продолжающегося исследования кураторства данных», — отмечают исследователи в статье о DataComp-LM.
Впечатляющая производительность меньшей модели
Подобно DCLM-7B, меньшая модель на 1,4B, разработанная совместно с Институтом исследований Toyota с использованием 2,6 триллионов токенов, также демонстрирует выдающиеся результаты в тестах MMLU, Core и Extended. В оценке MMLU на 5-shot она получила 41,9%, обойдя другие модели в своей категории, включая SmolLM от Hugging Face с результатом 39,97%. Модели Qwen-1.5B и Phi-1.5B следуют с результатами 37,87% и 35,90% соответственно.
В настоящее время модель 7B доступна под лицензией образца кода Apple, тогда как модель 1,4B выпущена под лицензией Apache 2.0, допускающей коммерческое использование, распространение и модификацию. Кроме того, в библиотеке Hugging Face доступна версия модели 7B с упрощением инструкций.
Важно отметить, что этот релиз представляет собой начальные исследования, акцентирующие внимание на эффективности кураторства данных. Эти модели не предназначены для устройств Apple и могут проявлять предвзятости из своих обучающих наборов данных или генерировать потенциально опасные ответы.