Microsoft и Beihang представляют MoRA: инновационный метод эффективной настройки LLM.

Home Новости ИИ Microsoft и Beihang представляют MoRA: инновационный метод эффективной настройки LLM.

Исследователи из Microsoft и Университета Бэйханг разработали экономически эффективную технику для дообучения больших языковых моделей (LLMs), что значительно снижает обычные затраты.

Новая методика, называемая MoRA, представляет собой параметрически эффективное дообучение (PEFT) и преодолевает ограничения, связанные с существующими методами, такими как низкоранговая адаптация (LoRA). MoRA особенно полезна для настройки моделей на задачах, требующих усвоения новой информации. Поскольку стратегии PEFT становятся популярными в корпоративной среде, MoRA представляет собой ценное средство для разработчиков приложений на основе LLM.

Понимание PEFT и LoRA

Традиционное дообучение требует настройки всех параметров LLM, что может быть чрезмерно затратным и времязатратным, учитывая, что эти модели часто содержат миллиарды параметров. Однако методы PEFT оптимизируют этот процесс, выявляя минимальный набор параметров, необходимых для задач.

LoRA стала популярным методом PEFT благодаря своей способности обновлять параметры с использованием низкоранговых матриц, что уменьшает требования к памяти и облегчает хранение и развертывание дообученных моделей. Тем не менее, LoRA испытывает трудности при работе с более сложными задачами, такими как математическое рассуждение и непрерывное предобучение, поскольку ее низкоранговый подход ограничивает способность модели усваивать и сохранять новую информацию.

Исследователи отмечают: “это ограничение мешает хранению новой информации через дообучение”.

Презентация MoRA

MoRA улучшается по сравнению с LoRA, основываясь на одной квадратной матрице вместо низкоранговых, что обеспечивает более эффективный процесс дообучения. Ключевая идея MoRA заключается в том, чтобы использовать обучаемые параметры для достижения наивысшего возможного ранга, совместимого с первоначальными размерами модели.

В отличие от LoRA, входные и выходные размеры MoRA не совпадают с исходной моделью, что препятствует простому умножению матриц. Чтобы решить эту проблему, исследователи разработали функцию сжатия/десжатия, позволяющую преобразовывать входные данные между двумя пространствами, позволяя MoRA бесшовно интегрироваться в LLM различных размеров. Квадратная весовая матрица улучшает способность MoRA к обучению и запоминанию новой информации по сравнению с эквивалентной моделью LoRA.

Производительность MoRA

В сравнительных исследованиях MoRA последовательно превосходила LoRA по задачам запоминания, достигая показателей, близких к полному дообучению, при использовании меньшего количества параметров и шагов обучения. Исследователи отметили, что кривая потерь MoRA близка к полной настройке для задач запоминания знаний, что указывает на ее эффективность.

“Наш метод демонстрирует значительные улучшения по сравнению с LoRA при одинаковом количестве обучаемых параметров, благодаря высокорангам обновления,” - заявили они.

В задачах, связанных с настройкой по инструкциям и математическим рассуждением, производительность MoRA почти равнялась показателям LoRA. Однако в сценариях непрерывного предобучения в биомедицинских и финансовых контекстах MoRA превзошла остальные решения благодаря своей способности к высокорангам обновления, что облегчает запоминание новой информации.

Исследователи также отметили, что увеличение ранга адаптера MoRA может сократить разрыв в производительности между PEFT и полным дообучением в задачах математического рассуждения, хотя это потребует большего объема обучения и хранения.

Роль PEFT в предприятиях

Дообучение критически важно для корпоративных приложений LLM. Оно улучшает возможности и точность LLM, позволяя организациям использовать более мелкие модели для задач, которые в противном случае потребовали бы более затратных продвинутых моделей.

В настоящее время LoRA и ее производные считаются эталонами параметрически эффективного дообучения, поддерживаемого мощной экосистемой инструментов и платформ для создания адаптеров LoRA. Например, S-LoRA позволяет разработчикам использовать несколько адаптеров LoRA на одном графическом процессоре, что облегчает приложения, требующие многочисленных дообученных LLM, адаптированных под содержание отдельных пользователей.

Исследователи предоставили MoRA в виде реализации с открытым исходным кодом, совместимой с LoRA, что делает ее значительным ресурсом для предприятий, стремящихся обогатить базовые модели новой информацией.

Элон Маск против Янна Лекуна: конфликт в социальных сетях, раскрывающий противоречивые подходы к исследованию ИИ и общественному восприятию.

OpenAI запускает обучение для модели нового поколения — ожидается запуск GPT-5 через более чем 90 дней.

Most people like

TXYZ - Integrate all paths to knowledge

504.5K

Представляем революционную платформу ИИ, созданную для трансформации и оптимизации вашего исследовательского процесса. Ощутите беспрецедентную эффективность и точность, используя мощь искусственного интеллекта для улучшения ваших исследовательских возможностей. Узнайте, как наша инновационная технология может поддержать ваше стремление к знаниям, делая сбор информации быстрее и эффективнее, чем когда-либо прежде.

Исследования на основе ИИ Research Tool

Checkstep

20.8K

Защитите своих пользователей от вредоносного контента В сегодняшнем цифровом пространстве защита пользователей от вредоносного контента как никогда важна. С ростом онлайн-взаимодействий возрастает и риск столкновения с неподобающими или опасными материалами. Реализуя надежные стратегии модерации контента, вы не только защищаете свою аудиторию, но и улучшаете их общий опыт, укрепляя доверие и лояльность к вашей платформе. Ставьте безопасность пользователей на первое место и создавайте безопасную онлайн-среду уже сегодня.

Модерация контента AI Detector

PhotoStyleAI

6.9K

Легко улучшайте свои фотографии и изображения с помощью современных инструментов стильного преобразования и фильтров на базе ИИ. Превращайте ваши визуалы с помощью инновационных технологий, которые оживляют креативность.

Перенос стиля с помощью ИИ Other

Rate My Physique

8.3K

Представляем приложение на основе ИИ, предназначенное для оценки физического состояния и персонализированных советов по улучшению. Этот инновационный инструмент предоставляет пользователям информацию о их физической форме, помогая улучшить фитнес-путь с индивидуальными рекомендациями. Независимо от того, стремитесь ли вы повысить мышечный тонус или улучшить общий вид, наше приложение станет надежным помощником на пути к более здоровой жизни.

Рейтинг физики ИИ Fitness

Find AI tools in YBX