Microsoft y Beihang presentan MoRA: una técnica innovadora para la optimización eficiente del ajuste fino de LLM.

Home Noticias de IA Microsoft y Beihang presentan MoRA: una técnica innovadora para la optimización eficiente del ajuste fino de LLM.

Investigadores de Microsoft y la Universidad Beihang han desarrollado una técnica económica para ajustar modelos de lenguaje grandes (LLMs), reduciendo significativamente los costos habituales.

Nombrada MoRA, este novedoso método de ajuste eficiente de parámetros (PEFT) aborda las limitaciones comunes de técnicas existentes como la adaptación de bajo rango (LoRA). MoRA es especialmente ventajosa para ajustar modelos en tareas que requieren la asimilación de nuevos conocimientos. A medida que las estrategias PEFT ganan popularidad en entornos empresariales, MoRA se presenta como una herramienta valiosa para los desarrolladores de aplicaciones de LLM.

Entendiendo PEFT y LoRA

El ajuste tradicional requiere modificar todos los parámetros de un LLM, lo que puede ser costoso y llevar mucho tiempo, dado que estos modelos suelen tener miles de millones de parámetros. Las técnicas PEFT optimizan este proceso al identificar el subconjunto mínimo de parámetros necesarios para ajustes específicos de la tarea.

LoRA se ha convertido en un método PEFT popular gracias a su capacidad para actualizar parámetros utilizando matrices de bajo rango, lo que reduce los requisitos de memoria y facilita el almacenamiento y despliegue de modelos ajustados. Sin embargo, LoRA presenta dificultades en tareas más complejas, como el razonamiento matemático y el preentrenamiento continuo, debido a que su enfoque de bajo rango limita la capacidad del modelo para adquirir y retener nueva información.

Según los investigadores, “esta limitación restringe la capacidad para almacenar nueva información a través del ajuste.”

Introduciendo MoRA

MoRA mejora a LoRA al utilizar una única matriz cuadrada en lugar de matrices de bajo rango, lo que permite un proceso de ajuste más eficiente. El concepto clave de MoRA es aprovechar parámetros entrenables para alcanzar el rango máximo posible compatible con las dimensiones originales del modelo.

A diferencia de LoRA, las dimensiones de entrada y salida de MoRA no se alinean con las del modelo original, lo que impide la multiplicación directa de matrices. Para resolver esto, los investigadores idearon una función de compresión/descompresión que facilita la transformación de la entrada entre los dos espacios, permitiendo la integración fluida de MoRA en LLMs de varios tamaños. La matriz de peso cuadrada mejora la capacidad de MoRA para aprender y memorizar nuevos conocimientos en comparación con un modelo LoRA de tamaño equivalente.

Rendimiento de MoRA

En estudios comparativos, MoRA superó consistentemente a LoRA en tareas de memorización, acercándose al rendimiento de modelos completamente ajustados mientras utilizaba menos parámetros y pasos de entrenamiento. Los investigadores observaron que la curva de pérdida de MoRA se alinea estrechamente con el ajuste completo para tareas de memorización, lo que indica su eficiencia.

“Nuestro método muestra mejoras significativas sobre LoRA con la misma cantidad de parámetros entrenables, beneficiándose de actualizaciones de alto rango”, afirmaron.

En tareas que implican ajuste por instrucciones y razonamiento matemático, el rendimiento de MoRA estuvo casi a la par con lo de LoRA. Sin embargo, en escenarios de preentrenamiento continuo en contextos biomédicos y financieros, MoRA destacó gracias a su capacidad de actualización de alto rango, que facilita la memorización de nueva información.

Los investigadores también notaron que aumentar el rango del adaptador de MoRA podría cerrar la brecha de rendimiento entre PEFT y el ajuste completo en tareas de razonamiento matemático, aunque con mayores demandas de entrenamiento y almacenamiento.

El papel de PEFT en las empresas

El ajuste es crucial para aplicaciones empresariales de LLMs. Mejora las capacidades y la precisión de los LLMs, permitiendo que las organizaciones utilicen modelos más pequeños para tareas que de otro modo necesitarían modelos avanzados más costosos.

Actualmente, LoRA y sus variantes se consideran los estándares para el ajuste eficiente de parámetros, respaldados por un robusto ecosistema de herramientas y plataformas para crear adaptadores LoRA. Por ejemplo, S-LoRA permite a los desarrolladores ejecutar múltiples adaptadores LoRA en una sola GPU, facilitando aplicaciones que requieren varios LLMs ajustados adaptados al contenido individual del usuario.

Los investigadores han hecho que MoRA esté disponible como una implementación de código abierto compatible con LoRA, posicionándola como un recurso significativo para las empresas que buscan enriquecer sus modelos base con nuevos conocimientos.

Elon Musk vs. Yann LeCun: Un enfrentamiento en redes sociales que revela enfoques contradictorios sobre la investigación en IA y la percepción pública.

OpenAI Lanza Capacitación para el Modelo de Nueva Generación — Se Espera que GPT-5 Esté Disponible en Más de 90 Días

Most people like

Sora

551.1M

Presentamos un modelo de IA diseñado para transformar texto en escenas vívidas. Esta innovadora tecnología revoluciona la narración al dar vida a la imaginación a través de impresionantes visuales. Ya seas un escritor que explora nuevas avenidas creativas o un profesional del marketing que busca mejorar el compromiso, este modelo de IA ofrece una forma única de visualizar conceptos e ideas. Experimenta el futuro de la narración visual con potentes capacidades de IA que convierten palabras en imágenes cautivadoras.

IA Text to Video

Anki Decks

138.6K

¿Estás cansado de pasar horas creando tarjetas de estudio que no funcionan? Imagina poder hacer tarjetas atractivas y efectivas en una fracción del tiempo. Con nuestras técnicas innovadoras, puedes aumentar tu eficiencia de estudio y retener mejor la información. ¡Sumérgete y descubre cómo revolucionar tu experiencia de aprendizaje creando tarjetas 10 veces más rápido que antes!

anki ai AI Notes Assistant

EarnBetter

623.8K

Desbloquea tu potencial profesional con nuestro asistente de búsqueda de empleo con IA, gratuito. Esta herramienta innovadora optimiza tu búsqueda laboral al ofrecer recomendaciones personalizadas, sugerencias de currículum adaptadas y consejos para entrevistas. Ya sea que busques tu primer trabajo o estés realizando un cambio profesional, nuestro asistente de IA está diseñado para mejorar tu experiencia de búsqueda de empleo y conectarte con oportunidades que se ajusten a tus habilidades y aspiraciones. ¡Comienza a maximizar tu búsqueda de empleo hoy mismo!

Asistente de búsqueda de empleo con IA Resume Builder

Writing.io

25.2K

Crea y comparte contenido impresionante sin esfuerzo con Writing.io. Desata tu creatividad y mejora tu experiencia de escritura hoy mismo.

Escritura AI Content Generator

Find AI tools in YBX