Microsoft e Beihang Apresentam o MoRA: Uma Técnica Inovadora para o Acompanhamento Eficiente de LLMs

Home Notícias de IA Microsoft e Beihang Apresentam o MoRA: Uma Técnica Inovadora para o Acompanhamento Eficiente de LLMs

Pesquisadores da Microsoft e da Universidade Beihang desenvolveram uma técnica econômica para o ajuste fino de grandes modelos de linguagem (LLMs), reduzindo significativamente os custos geralmente envolvidos. Nomeada MoRA, esse novo método de ajuste fino com eficiência de parâmetros (PEFT) aborda limitações comuns associadas a técnicas existentes, como a adaptação de baixa classificação (LoRA). O MoRA é especialmente vantajoso para ajustar modelos em tarefas que exigem a assimilação de novos conhecimentos. À medida que as estratégias PEFT ganham popularidade em ambientes corporativos, o MoRA se destaca como uma ferramenta valiosa para desenvolvedores de aplicações de LLM.

Entendendo PEFT e LoRA

O ajuste fino tradicional exige a modificação de todos os parâmetros de um LLM, o que pode ser extremamente caro e demorado, dado que esses modelos costumam conter bilhões de parâmetros. As técnicas PEFT otimizam esse processo, identificando o subconjunto mínimo de parâmetros necessários para ajustes específicos de tarefas. A LoRA se tornou um método popular de PEFT devido à sua capacidade de atualizar parâmetros usando matrizes de baixa classificação, permitindo a redução nas exigências de memória e facilitando o armazenamento e a implementação de modelos ajustados. No entanto, a LoRA tende a falhar em tarefas mais complexas, como raciocínio matemático e pré-treinamento contínuo, pois sua abordagem de baixa classificação limita a capacidade do modelo de adquirir e reter novas informações. Segundo os pesquisadores, "essa limitação restringe a capacidade de armazenar novas informações por meio do ajuste fino."

Apresentando o MoRA

O MoRA melhora a LoRA ao utilizar uma única matriz quadrada em vez de matrizes de baixa classificação, possibilitando um processo de ajuste fino mais eficiente. O conceito-chave do MoRA é aproveitar parâmetros treináveis para atingir a maior classificação possível compatível com as dimensões originais do modelo. Ao contrário da LoRA, as dimensões de entrada e saída do MoRA não se alinham às do modelo original, impedindo a multiplicação de matrizes de forma simples. Para resolver isso, os pesquisadores desenvolveram uma função de compressão/descompressão que facilita a transformação da entrada entre os dois espaços, permitindo que o MoRA seja integrado de forma harmoniosa a LLMs de diversos tamanhos. A matriz de pesos quadrada aumenta a capacidade do MoRA de aprender e memorizar novos conhecimentos em comparação a um modelo LoRA de tamanho equivalente.

Desempenho do MoRA

Em estudos comparativos, o MoRA apresentou desempenho superior à LoRA em tarefas de memorização, aproximando-se da performance de modelos totalmente ajustados enquanto utilizava menos parâmetros e etapas de treinamento. Os pesquisadores observaram que a curva de perda do MoRA está intimamente alinhada ao ajuste fino completo para tarefas de memorização de conhecimento, indicando sua eficiência. "Nosso método mostra melhorias significativas em relação à LoRA com o mesmo número de parâmetros treináveis, beneficiando-se de atualizações de alta classificação," afirmaram. Em tarefas envolvendo ajuste de instruções e raciocínio matemático, o desempenho do MoRA foi quase equivalente ao da LoRA. No entanto, em cenários de pré-treinamento contínuo nos contextos biomédico e financeiro, o MoRA se destacou devido à sua capacidade de atualização de alta classificação, que facilita a memorização de novas informações. Os pesquisadores também observaram que aumentar a classificação do adaptador MoRA poderia reduzir a diferença de desempenho entre PEFT e ajuste fino completo em tarefas de raciocínio matemático, embora isso implique em maiores demandas de treinamento e armazenamento.

O Papel do PEFT nas Empresas

O ajuste fino é crucial para aplicações corporativas de LLMs. Ele aprimora as capacidades e a precisão dos LLMs, permitindo que as organizações utilizem modelos menores para tarefas que, de outra forma, exigiriam modelos avançados mais caros. Atualmente, a LoRA e suas variantes são consideradas os benchmarks para ajuste fino com eficiência de parâmetros, apoiadas por um ecossistema robusto de ferramentas e plataformas para criação de adaptadores LoRA. Por exemplo, o S-LoRA permite que os desenvolvedores executem múltiplos adaptadores LoRA em uma única GPU, facilitando aplicações que requerem diversos LLMs ajustados para conteúdos específicos de cada usuário. Os pesquisadores disponibilizaram o MoRA como uma implementação de código aberto compatível com a LoRA, posicionando-o como um recurso significativo para empresas que buscam enriquecer modelos base com novos conhecimentos.

Elon Musk vs. Yann LeCun: Uma Rivalidade nas Redes Sociais que Revela Abordagens Opostas na Pesquisa de IA e na Percepção Pública

OpenAI Lança Treinamento para Modelo de Próxima Geração — GPT-5 Esperado em Mais de 90 Dias

Most people like

SDXL Image Generator

10.5K

Apresentamos nosso poderoso gerador de imagens AI gratuito, projetado para transformar suas ideias criativas em visuais impressionantes de forma fácil. Com algoritmos avançados e recursos intuitivos, esta ferramenta permite que você crie imagens de alta qualidade personalizadas de acordo com suas especificações. Se você é designer, profissional de marketing ou apenas deseja dar vida à sua imaginação, nosso gerador de imagens AI oferece possibilidades infinitas sem custo. Explore o futuro da arte digital e libere sua criatividade hoje mesmo com nossa tecnologia de ponta!

Gerador de imagens com IA Text to Image

Faraday

16.3K

Desbloqueie o potencial das previsões de clientes impulsionadas por IA para impulsionar um crescimento rápido nos negócios. Ao aproveitar algoritmos avançados, as empresas podem obter insights valiosos sobre o comportamento dos clientes, aumentar o engajamento e impulsionar a receita. Descubra como a integração da IA em sua estratégia pode transformar sua abordagem para compreender e antecipar as necessidades dos clientes.

IA Other

Fish Speech

315.7K

No cenário digital atual, a clonagem de voz e a tecnologia de conversão de texto em fala estão transformando a maneira como criamos e consumimos conteúdo de áudio. Esta plataforma inovadora permite que os usuários gerem narrações com vozes realistas e envolventes de forma surpreendentemente eficiente. Ao aproveitar técnicas avançadas de aprendizado de máquina, nossa solução capacita criadores, empresas e educadores a produzir áudio de alta qualidade que cativa o público, economizando tempo e recursos. Descubra como essa tecnologia de ponta pode elevar suas estratégias de conteúdo e aprimorar a comunicação.

Plataforma de clonagem de voz Text-to-Speech

Discopixel

10.4K

Transforme imagens estáticas em vídeos dinâmicos e envolventes que capturam emoções e contam histórias.

Geração de vídeo com IA Text to Image

Find AI tools in YBX