Ajustar modelos de linguagem de grande porte (LLMs) tornou-se essencial para empresas que buscam personalizar a inteligência artificial para tarefas específicas e melhorar a experiência do usuário. No entanto, a demanda computacional e financeira para esse ajuste muitas vezes limita o acesso de empresas com recursos restritos.
Para enfrentar esses desafios, pesquisadores desenvolveram algoritmos que reduzem significativamente os custos associados ao ajuste fino dos LLMs. Uma das inovações mais recentes é o S-LoRA, um projeto colaborativo entre a Stanford University e a UC Berkeley.
Liberando uma IA Econômica
O S-LoRA permite que organizações implementem LLMs ajustados com custos drasticamente reduzidos, possibilitando a operação de centenas ou milhares de modelos em uma única unidade de processamento gráfico (GPU). Essa inovação abre portas para inúmeras aplicações de LLM que antes eram muito caras ou intensivas em recursos.
Compreendendo a Adaptação de Baixa Classificação
Tradicionalmente, o ajuste fino de LLMs envolve o re-treinamento de um modelo pré-treinado, modificando todos os parâmetros para se adequar a uma tarefa específica. Como os LLMs geralmente contêm bilhões de parâmetros, esse método exige muitos recursos computacionais.
Técnicas de ajuste fino eficientes em parâmetros (PEFT), como a adaptação de baixa classificação (LoRA), oferecem uma alternativa ao ajustar seletivamente um subconjunto mínimo dos parâmetros do modelo. Desenvolvida pela Microsoft, a LoRA reduz significativamente o número de parâmetros treináveis enquanto mantém uma precisão comparável ao ajuste fino completo. Essa eficiência se traduz em menores requisitos de memória e computação.
A eficácia da LoRA resultou em ampla adoção, com muitos adaptadores criados para LLMs pré-treinados e modelos de difusão. Após o ajuste fino, os usuários podem mesclar os pesos da LoRA com o modelo base ou mantê-los como componentes separados, possibilitando vários adaptadores LoRA que ocupam memória mínima.
Aplicações Diversificadas com S-LoRA
As aplicações potenciais para o S-LoRA são vastas, variando de criação de conteúdo a atendimento ao cliente. Por exemplo, uma plataforma de blogs poderia utilizar essa técnica para oferecer LLMs ajustados capazes de gerar conteúdo no estilo único de um autor, sem custos altos.
Superando Desafios Técnicos
Apesar da atratividade de implantar múltiplos modelos LoRA sobre um único modelo base LLM, surgem vários desafios técnicos. A gestão de memória é uma preocupação primária, pois as GPUs têm capacidade de memória limitada, restringindo o número de adaptadores que podem ser carregados junto ao modelo base. Um sistema robusto de gerenciamento de memória é essencial para um funcionamento suave.
Além disso, servidores LLM utilizam processamento em lote para melhorar a capacidade de resposta, lidando com várias solicitações simultaneamente. No entanto, a variabilidade no tamanho dos adaptadores LoRA e seu processamento separado do modelo base pode gerar gargalos.
O S-LoRA aborda essas questões com um gerenciamento de memória dinâmico que troca eficientemente os adaptadores LoRA entre a GPU e a RAM conforme necessário. Seu mecanismo inovador de "Paginamento Unificado" garante uma manipulação eficaz dos caches de modelos de consulta e pesos de adaptadores, permitindo que o servidor processe centenas ou milhares de consultas em lote sem fragmentação da memória.
Além disso, o S-LoRA incorpora um sistema de "paralelismo de tensores" de última geração, garantindo compatibilidade com grandes modelos de transformadores em várias GPUs. Juntas, essas inovações possibilitam que o S-LoRA suporte numerosos adaptadores LoRA em uma única GPU ou em múltiplas GPUs.
Atendendo a Milhares de Modelos Simultaneamente
Pesquisadores avaliaram o S-LoRA utilizando várias versões do modelo Llama de código aberto da Meta em diferentes configurações de GPU. Os resultados demonstraram que o S-LoRA se destaca na manutenção de eficiência de throughput e memória em escala.
Em benchmarks contra a principal biblioteca de ajuste fino eficiente em parâmetros, Hugging Face PEFT, o S-LoRA alcançou um aumento de throughput de até 30 vezes. Comparado ao vLLM, um sistema de atendimento com alta capacidade de resposta e suporte básico à LoRA, o S-LoRA quadruplicou o throughput enquanto aumentou drasticamente o número de adaptadores atendidos em paralelo.
Um recurso notável do S-LoRA é sua capacidade de atender a 2.000 adaptadores simultaneamente, com um custo computacional adicional mínimo. Como explicou Ying Sheng, um estudante de doutorado em Stanford e coautor do artigo, "Os provedores de serviços podem utilizar o mesmo modelo base enquanto personalizam adaptadores para usuários individuais, que podem ser ajustados com dados específicos de cada usuário."
O design do S-LoRA também acomoda a aprendizagem em contexto, permitindo que os usuários se beneficiem de adaptadores personalizados enquanto incorporam dados recentes para melhorar as respostas dos LLMs. "Essa abordagem pode ser mais eficaz e econômica do que os comandos tradicionais em contexto", observou Sheng.
O código do S-LoRA já está disponível no GitHub, e os pesquisadores planejam integrá-lo em frameworks populares de atendimento a LLMs, permitindo que empresas adotem facilmente o S-LoRA em suas aplicações.