В условиях активной гонки между технологическими компаниями по внедрению искусственного интеллекта на устройства, исследование малых языковых моделей (SLM), оптимизированных для устройств с ограниченными ресурсами, стремительно развивается. Недавний прорыв от Nvidia представил Llama-3.1-Minitron 4B — сжатую версию модели Llama 3, использующую современные методы обрезки и дистилляции. Эта новая модель не только конкурирует с более крупными аналогами, но и обеспечивает более эффективный процесс обучения и внедрения.
Понимание обрезки и дистилляции
Обрезка и дистилляция — ключевые техники для разработки более компактных и эффективных языковых моделей. Обрезка устраняет менее критичные компоненты: "обрезка по глубине" исключает целые слои, а "обрезка по ширине" удаляет определенные элементы, такие как нейроны и головы внимания.
Дистилляция модели включает передачу знаний от более крупной "учительской модели" к более простой "студенческой модели". Существуют два основных подхода:
1. Обучение SGD: Студенческая модель учится на входных данных и ответах учителя.
2. Классическая дистилляция знаний: В этом методе студент учится не только на конечных выходах, но и на промежуточных активациях учительской модели.
Ранее Nvidia объединила обрезку с классической дистилляцией, уменьшив модель Nemotron 15B до модели с 8 миллиардами параметров. Последующая дистилляция от оригинальной модели к обрезанной версии привела к созданию модели на 4 миллиарда параметров, что позволило достичь улучшения производительности на 16% по стандарту MMLU, используя при этом в 40 раз меньше токенов для обучения.
Разработка Llama 3.1-Minitron
Опираясь на предыдущие методы, Nvidia применила те же подходы к 8B модели Llama 3.1, создав 4-миллиардную версию, способную конкурировать с крупными моделями. Процесс начался с тонкой настройки необрезанной 8B модели на обширном наборе данных объемом 94 миллиарда токенов для устранения сдвигов в распределении, которые затрудняли обучение во время дистилляции.
Затем были применены две формы обрезки: обрезка по глубине, сократившая количество слоев модели на 50%, и обрезка по ширине, удалившая 50% нейронов в некоторых плотных слоях. Эти изменения привели к созданию двух разных версий модели Llama-3.1-Minitron 4B.
Обрезанные модели прошли тонкую настройку с использованием NeMo-Aligner, пакета инструментов с рядом алгоритмов выравнивания, включая обучение с подкреплением на основе человеческой обратной связи (RLHF) и SteerLM от Nvidia.
Результаты производительности
Nvidia оценивала модели Llama-3.1-Minitron 4B по задачам следования инструкциям, ролевым играм, генерированию с дополнением извлечений и вызовам функций. Несмотря на меньший набор данных для обучения, Llama-3.1-Minitron 4B показала производительность, сопоставимую с другими SLM, такими как Phi-2 2.7B и Gemma2 2.6B, при этом оставаясь значительно меньшей. Это подчеркивает интересный компромисс между затратами на обучение и эффективностью вывода.
Версия модели с обрезкой по ширине теперь доступна на Hugging Face по лицензии Nvidia Open Model, что способствует более широкому доступу и коммерческому использованию для разработчиков.
Nvidia утверждает, что "обрезка и классическая дистилляция знаний — это экономически эффективный способ создания меньших, высокоточных языковых моделей по сравнению с традиционными методами". Эта работа подчеркивает важную роль сообщества с открытым исходным кодом в развитии ИИ и демонстрирует, как стратегии обрезки и дистилляции могут оптимизировать LLM, минимизируя затраты. Другие инновационные усилия, такие как алгоритм слияния моделей Sakana AI, также подчеркивают потенциал недорогих решений для обучения в области ИИ.