Investigadores de Microsoft y la Universidad Beihang han desarrollado una técnica económica para ajustar modelos de lenguaje grandes (LLMs), reduciendo significativamente los costos habituales.
Nombrada MoRA, este novedoso método de ajuste eficiente de parámetros (PEFT) aborda las limitaciones comunes de técnicas existentes como la adaptación de bajo rango (LoRA). MoRA es especialmente ventajosa para ajustar modelos en tareas que requieren la asimilación de nuevos conocimientos. A medida que las estrategias PEFT ganan popularidad en entornos empresariales, MoRA se presenta como una herramienta valiosa para los desarrolladores de aplicaciones de LLM.
Entendiendo PEFT y LoRA
El ajuste tradicional requiere modificar todos los parámetros de un LLM, lo que puede ser costoso y llevar mucho tiempo, dado que estos modelos suelen tener miles de millones de parámetros. Las técnicas PEFT optimizan este proceso al identificar el subconjunto mínimo de parámetros necesarios para ajustes específicos de la tarea.
LoRA se ha convertido en un método PEFT popular gracias a su capacidad para actualizar parámetros utilizando matrices de bajo rango, lo que reduce los requisitos de memoria y facilita el almacenamiento y despliegue de modelos ajustados. Sin embargo, LoRA presenta dificultades en tareas más complejas, como el razonamiento matemático y el preentrenamiento continuo, debido a que su enfoque de bajo rango limita la capacidad del modelo para adquirir y retener nueva información.
Según los investigadores, “esta limitación restringe la capacidad para almacenar nueva información a través del ajuste.”
Introduciendo MoRA
MoRA mejora a LoRA al utilizar una única matriz cuadrada en lugar de matrices de bajo rango, lo que permite un proceso de ajuste más eficiente. El concepto clave de MoRA es aprovechar parámetros entrenables para alcanzar el rango máximo posible compatible con las dimensiones originales del modelo.
A diferencia de LoRA, las dimensiones de entrada y salida de MoRA no se alinean con las del modelo original, lo que impide la multiplicación directa de matrices. Para resolver esto, los investigadores idearon una función de compresión/descompresión que facilita la transformación de la entrada entre los dos espacios, permitiendo la integración fluida de MoRA en LLMs de varios tamaños. La matriz de peso cuadrada mejora la capacidad de MoRA para aprender y memorizar nuevos conocimientos en comparación con un modelo LoRA de tamaño equivalente.
Rendimiento de MoRA
En estudios comparativos, MoRA superó consistentemente a LoRA en tareas de memorización, acercándose al rendimiento de modelos completamente ajustados mientras utilizaba menos parámetros y pasos de entrenamiento. Los investigadores observaron que la curva de pérdida de MoRA se alinea estrechamente con el ajuste completo para tareas de memorización, lo que indica su eficiencia.
“Nuestro método muestra mejoras significativas sobre LoRA con la misma cantidad de parámetros entrenables, beneficiándose de actualizaciones de alto rango”, afirmaron.
En tareas que implican ajuste por instrucciones y razonamiento matemático, el rendimiento de MoRA estuvo casi a la par con lo de LoRA. Sin embargo, en escenarios de preentrenamiento continuo en contextos biomédicos y financieros, MoRA destacó gracias a su capacidad de actualización de alto rango, que facilita la memorización de nueva información.
Los investigadores también notaron que aumentar el rango del adaptador de MoRA podría cerrar la brecha de rendimiento entre PEFT y el ajuste completo en tareas de razonamiento matemático, aunque con mayores demandas de entrenamiento y almacenamiento.
El papel de PEFT en las empresas
El ajuste es crucial para aplicaciones empresariales de LLMs. Mejora las capacidades y la precisión de los LLMs, permitiendo que las organizaciones utilicen modelos más pequeños para tareas que de otro modo necesitarían modelos avanzados más costosos.
Actualmente, LoRA y sus variantes se consideran los estándares para el ajuste eficiente de parámetros, respaldados por un robusto ecosistema de herramientas y plataformas para crear adaptadores LoRA. Por ejemplo, S-LoRA permite a los desarrolladores ejecutar múltiples adaptadores LoRA en una sola GPU, facilitando aplicaciones que requieren varios LLMs ajustados adaptados al contenido individual del usuario.
Los investigadores han hecho que MoRA esté disponible como una implementación de código abierto compatible con LoRA, posicionándola como un recurso significativo para las empresas que buscan enriquecer sus modelos base con nuevos conocimientos.