Microsoft и Beihang представляют MoRA: инновационный метод эффективной настройки LLM.

Исследователи из Microsoft и Университета Бэйханг разработали экономически эффективную технику для дообучения больших языковых моделей (LLMs), что значительно снижает обычные затраты.

Новая методика, называемая MoRA, представляет собой параметрически эффективное дообучение (PEFT) и преодолевает ограничения, связанные с существующими методами, такими как низкоранговая адаптация (LoRA). MoRA особенно полезна для настройки моделей на задачах, требующих усвоения новой информации. Поскольку стратегии PEFT становятся популярными в корпоративной среде, MoRA представляет собой ценное средство для разработчиков приложений на основе LLM.

Понимание PEFT и LoRA

Традиционное дообучение требует настройки всех параметров LLM, что может быть чрезмерно затратным и времязатратным, учитывая, что эти модели часто содержат миллиарды параметров. Однако методы PEFT оптимизируют этот процесс, выявляя минимальный набор параметров, необходимых для задач.

LoRA стала популярным методом PEFT благодаря своей способности обновлять параметры с использованием низкоранговых матриц, что уменьшает требования к памяти и облегчает хранение и развертывание дообученных моделей. Тем не менее, LoRA испытывает трудности при работе с более сложными задачами, такими как математическое рассуждение и непрерывное предобучение, поскольку ее низкоранговый подход ограничивает способность модели усваивать и сохранять новую информацию.

Исследователи отмечают: “это ограничение мешает хранению новой информации через дообучение”.

Презентация MoRA

MoRA улучшается по сравнению с LoRA, основываясь на одной квадратной матрице вместо низкоранговых, что обеспечивает более эффективный процесс дообучения. Ключевая идея MoRA заключается в том, чтобы использовать обучаемые параметры для достижения наивысшего возможного ранга, совместимого с первоначальными размерами модели.

В отличие от LoRA, входные и выходные размеры MoRA не совпадают с исходной моделью, что препятствует простому умножению матриц. Чтобы решить эту проблему, исследователи разработали функцию сжатия/десжатия, позволяющую преобразовывать входные данные между двумя пространствами, позволяя MoRA бесшовно интегрироваться в LLM различных размеров. Квадратная весовая матрица улучшает способность MoRA к обучению и запоминанию новой информации по сравнению с эквивалентной моделью LoRA.

Производительность MoRA

В сравнительных исследованиях MoRA последовательно превосходила LoRA по задачам запоминания, достигая показателей, близких к полному дообучению, при использовании меньшего количества параметров и шагов обучения. Исследователи отметили, что кривая потерь MoRA близка к полной настройке для задач запоминания знаний, что указывает на ее эффективность.

“Наш метод демонстрирует значительные улучшения по сравнению с LoRA при одинаковом количестве обучаемых параметров, благодаря высокорангам обновления,” - заявили они.

В задачах, связанных с настройкой по инструкциям и математическим рассуждением, производительность MoRA почти равнялась показателям LoRA. Однако в сценариях непрерывного предобучения в биомедицинских и финансовых контекстах MoRA превзошла остальные решения благодаря своей способности к высокорангам обновления, что облегчает запоминание новой информации.

Исследователи также отметили, что увеличение ранга адаптера MoRA может сократить разрыв в производительности между PEFT и полным дообучением в задачах математического рассуждения, хотя это потребует большего объема обучения и хранения.

Роль PEFT в предприятиях

Дообучение критически важно для корпоративных приложений LLM. Оно улучшает возможности и точность LLM, позволяя организациям использовать более мелкие модели для задач, которые в противном случае потребовали бы более затратных продвинутых моделей.

В настоящее время LoRA и ее производные считаются эталонами параметрически эффективного дообучения, поддерживаемого мощной экосистемой инструментов и платформ для создания адаптеров LoRA. Например, S-LoRA позволяет разработчикам использовать несколько адаптеров LoRA на одном графическом процессоре, что облегчает приложения, требующие многочисленных дообученных LLM, адаптированных под содержание отдельных пользователей.

Исследователи предоставили MoRA в виде реализации с открытым исходным кодом, совместимой с LoRA, что делает ее значительным ресурсом для предприятий, стремящихся обогатить базовые модели новой информацией.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles