Сегодня компания Apple представила серию открытых больших языковых моделей (LLM), разработанных для работы на устройствах без необходимости использования облачных серверов. Модели, получившие название OpenELM (Открытые Эффективные Языковые Модели), теперь доступны на платформе Hugging Face Hub, создавая сообщество для обмена AI-кодом.
OpenELM включает восемь моделей: четыре предварительно обученные с использованием библиотеки CoreNet и четыре, дообученные с помощью направленных корректировок. Apple внедрила иерархическую стратегию масштабирования, эффективно распределяющую параметры по слоям трансформера, что улучшает как точность, так и эффективность. Например, при бюджете параметров около одного миллиарда, OpenELM демонстрирует улучшение точности на 2,36% по сравнению с OLMo, одновременно сокращая потребность в токенах для предварительной тренировки вдвое.
В отличие от предыдущих релизов, которые предоставляли только веса моделей и код для вывода, этот запуск включает в себя полную платформу для обучения и оценки языковых моделей на общедоступных наборах данных. В комплекте идут журналы обучения, несколько контрольных точек и конфигурации для предварительного обучения. Apple стремится, чтобы эта инициатива ускорила развитие в области NLP и обеспечила "более надежные результаты".
Запуск этих открытых моделей направлен на "усиление и обогащение открытого исследовательского сообщества", что позволяет исследователям глубже изучать риски, использование данных и предвзятости моделей. Разработчики и компании также могут свободно использовать или модифицировать эти модели под свои собственные нужды.
Открывая эту информацию, Apple нацелена привлечь ведущих инженеров, ученых и экспертов для продвижения исследований в соответствующих областях, несмотря на сложности, связанные с публикацией в рамках политики конфиденциальности компании. Хотя функции ИИ еще не интегрированы в устройства Apple, ожидается, что iOS 18 введет множество новых возможностей ИИ, и есть данные о том, что Apple намерена перевести свои большие языковые модели на работу на устройствах для повышения уровня конфиденциальности.