Исследователи Meta AI представили MobileLLM — инновационный подход к разработке эффективных языковых моделей, предназначенных для смартфонов и других устройств с ограниченными ресурсами. Выпущенный 27 июня 2024 года, этот проект ставит под сомнение общее мнение о том, что эффективные модели ИИ должны быть крупными.
Команда, в которую вошли эксперты из Meta Reality Labs, PyTorch и Meta AI Research (FAIR), сосредоточилась на оптимизации моделей с менее чем 1 миллионом параметров. Это значительно меньше по сравнению с GPT-4, который содержит более триллиона параметров.
Ян ЛеКун, главный научный сотрудник Meta по ИИ, поделился важными инсайтами о проведенном исследовании на платформе X (ранее Twitter):
Ключевые инновации в MobileLLM:
- Упор на глубину модели, а не на ширину
- Внедрение совместного использования эмбеддингов и внимание к сгруппированным запросам
- Введение инновационной техники обмена весами по блокам
Эти стратегические решения позволили MobileLLM превзойти предыдущие модели сопоставимого размера на 2.7% до 4.3% по основным задачам тестирования. Хотя улучшения могут показаться небольшими, они представляют собой значительный шаг вперед в конкурентной среде разработки языковых моделей.
Примечательно, что версия MobileLLM с 350 миллионами параметров достигает аналогичной точности с более крупной моделью LLaMA-2, содержащей 7 миллиардов параметров, в определенных задачах вызова API. Это указывает на то, что компактные модели могут обеспечивать схожую производительность, требуя существенно меньше вычислительных ресурсов.
Публикация "MobileLLM: Оптимизация субмиллионных языковых моделей для использования на устройствах" под авторством Зечуна Лю и др. подчеркивает этот прогресс.
Разработка MobileLLM отражает растущий интерес к созданию более эффективных моделей ИИ. Поскольку достижения в области очень крупных языковых моделей начали достигать плато, исследователи все чаще обращаются к компактным, специализированным дизайнам. Упор MobileLLM на эффективность и развертывание на устройствах ставит его наравне с тем, что некоторые эксперты называют малыми языковыми моделями (SLM).
Хотя MobileLLM еще не доступен для широкой публики, Meta открыла код предобучения, что позволяет исследователям развивать эту работу. По мере эволюции этой технологии она может улучшить функциональные возможности ИИ на персональных устройствах, хотя сроки и конкретные возможности остаются неопределенными.
В целом, MobileLLM представляет собой значительное достижение в доступности и устойчивости сложного ИИ, оспаривая мнение о том, что эффективные языковые модели должны быть массивными. Эта инновация может открыть новые захватывающие приложения ИИ на персональных устройствах.