Pesquisadores da Microsoft e da Universidade Beihang desenvolveram uma técnica econômica para o ajuste fino de grandes modelos de linguagem (LLMs), reduzindo significativamente os custos geralmente envolvidos. Nomeada MoRA, esse novo método de ajuste fino com eficiência de parâmetros (PEFT) aborda limitações comuns associadas a técnicas existentes, como a adaptação de baixa classificação (LoRA). O MoRA é especialmente vantajoso para ajustar modelos em tarefas que exigem a assimilação de novos conhecimentos. À medida que as estratégias PEFT ganham popularidade em ambientes corporativos, o MoRA se destaca como uma ferramenta valiosa para desenvolvedores de aplicações de LLM.
Entendendo PEFT e LoRA
O ajuste fino tradicional exige a modificação de todos os parâmetros de um LLM, o que pode ser extremamente caro e demorado, dado que esses modelos costumam conter bilhões de parâmetros. As técnicas PEFT otimizam esse processo, identificando o subconjunto mínimo de parâmetros necessários para ajustes específicos de tarefas. A LoRA se tornou um método popular de PEFT devido à sua capacidade de atualizar parâmetros usando matrizes de baixa classificação, permitindo a redução nas exigências de memória e facilitando o armazenamento e a implementação de modelos ajustados. No entanto, a LoRA tende a falhar em tarefas mais complexas, como raciocínio matemático e pré-treinamento contínuo, pois sua abordagem de baixa classificação limita a capacidade do modelo de adquirir e reter novas informações. Segundo os pesquisadores, "essa limitação restringe a capacidade de armazenar novas informações por meio do ajuste fino."
Apresentando o MoRA
O MoRA melhora a LoRA ao utilizar uma única matriz quadrada em vez de matrizes de baixa classificação, possibilitando um processo de ajuste fino mais eficiente. O conceito-chave do MoRA é aproveitar parâmetros treináveis para atingir a maior classificação possível compatível com as dimensões originais do modelo. Ao contrário da LoRA, as dimensões de entrada e saída do MoRA não se alinham às do modelo original, impedindo a multiplicação de matrizes de forma simples. Para resolver isso, os pesquisadores desenvolveram uma função de compressão/descompressão que facilita a transformação da entrada entre os dois espaços, permitindo que o MoRA seja integrado de forma harmoniosa a LLMs de diversos tamanhos. A matriz de pesos quadrada aumenta a capacidade do MoRA de aprender e memorizar novos conhecimentos em comparação a um modelo LoRA de tamanho equivalente.
Desempenho do MoRA
Em estudos comparativos, o MoRA apresentou desempenho superior à LoRA em tarefas de memorização, aproximando-se da performance de modelos totalmente ajustados enquanto utilizava menos parâmetros e etapas de treinamento. Os pesquisadores observaram que a curva de perda do MoRA está intimamente alinhada ao ajuste fino completo para tarefas de memorização de conhecimento, indicando sua eficiência. "Nosso método mostra melhorias significativas em relação à LoRA com o mesmo número de parâmetros treináveis, beneficiando-se de atualizações de alta classificação," afirmaram. Em tarefas envolvendo ajuste de instruções e raciocínio matemático, o desempenho do MoRA foi quase equivalente ao da LoRA. No entanto, em cenários de pré-treinamento contínuo nos contextos biomédico e financeiro, o MoRA se destacou devido à sua capacidade de atualização de alta classificação, que facilita a memorização de novas informações. Os pesquisadores também observaram que aumentar a classificação do adaptador MoRA poderia reduzir a diferença de desempenho entre PEFT e ajuste fino completo em tarefas de raciocínio matemático, embora isso implique em maiores demandas de treinamento e armazenamento.
O Papel do PEFT nas Empresas
O ajuste fino é crucial para aplicações corporativas de LLMs. Ele aprimora as capacidades e a precisão dos LLMs, permitindo que as organizações utilizem modelos menores para tarefas que, de outra forma, exigiriam modelos avançados mais caros. Atualmente, a LoRA e suas variantes são consideradas os benchmarks para ajuste fino com eficiência de parâmetros, apoiadas por um ecossistema robusto de ferramentas e plataformas para criação de adaptadores LoRA. Por exemplo, o S-LoRA permite que os desenvolvedores executem múltiplos adaptadores LoRA em uma única GPU, facilitando aplicações que requerem diversos LLMs ajustados para conteúdos específicos de cada usuário. Os pesquisadores disponibilizaram o MoRA como uma implementação de código aberto compatível com a LoRA, posicionando-o como um recurso significativo para empresas que buscam enriquecer modelos base com novos conhecimentos.