Desbloqueie o Poder do S-LoRA: Execute Milhares de LLMs em uma Única GPU

Home Notícias de IA Desbloqueie o Poder do S-LoRA: Execute Milhares de LLMs em uma Única GPU

Updated on novembro 14 2023

Ajustar modelos de linguagem de grande porte (LLMs) tornou-se essencial para empresas que buscam personalizar a inteligência artificial para tarefas específicas e melhorar a experiência do usuário. No entanto, a demanda computacional e financeira para esse ajuste muitas vezes limita o acesso de empresas com recursos restritos.

Para enfrentar esses desafios, pesquisadores desenvolveram algoritmos que reduzem significativamente os custos associados ao ajuste fino dos LLMs. Uma das inovações mais recentes é o S-LoRA, um projeto colaborativo entre a Stanford University e a UC Berkeley.

Liberando uma IA Econômica

O S-LoRA permite que organizações implementem LLMs ajustados com custos drasticamente reduzidos, possibilitando a operação de centenas ou milhares de modelos em uma única unidade de processamento gráfico (GPU). Essa inovação abre portas para inúmeras aplicações de LLM que antes eram muito caras ou intensivas em recursos.

Compreendendo a Adaptação de Baixa Classificação

Tradicionalmente, o ajuste fino de LLMs envolve o re-treinamento de um modelo pré-treinado, modificando todos os parâmetros para se adequar a uma tarefa específica. Como os LLMs geralmente contêm bilhões de parâmetros, esse método exige muitos recursos computacionais.

Técnicas de ajuste fino eficientes em parâmetros (PEFT), como a adaptação de baixa classificação (LoRA), oferecem uma alternativa ao ajustar seletivamente um subconjunto mínimo dos parâmetros do modelo. Desenvolvida pela Microsoft, a LoRA reduz significativamente o número de parâmetros treináveis enquanto mantém uma precisão comparável ao ajuste fino completo. Essa eficiência se traduz em menores requisitos de memória e computação.

A eficácia da LoRA resultou em ampla adoção, com muitos adaptadores criados para LLMs pré-treinados e modelos de difusão. Após o ajuste fino, os usuários podem mesclar os pesos da LoRA com o modelo base ou mantê-los como componentes separados, possibilitando vários adaptadores LoRA que ocupam memória mínima.

Aplicações Diversificadas com S-LoRA

As aplicações potenciais para o S-LoRA são vastas, variando de criação de conteúdo a atendimento ao cliente. Por exemplo, uma plataforma de blogs poderia utilizar essa técnica para oferecer LLMs ajustados capazes de gerar conteúdo no estilo único de um autor, sem custos altos.

Superando Desafios Técnicos

Apesar da atratividade de implantar múltiplos modelos LoRA sobre um único modelo base LLM, surgem vários desafios técnicos. A gestão de memória é uma preocupação primária, pois as GPUs têm capacidade de memória limitada, restringindo o número de adaptadores que podem ser carregados junto ao modelo base. Um sistema robusto de gerenciamento de memória é essencial para um funcionamento suave.

Além disso, servidores LLM utilizam processamento em lote para melhorar a capacidade de resposta, lidando com várias solicitações simultaneamente. No entanto, a variabilidade no tamanho dos adaptadores LoRA e seu processamento separado do modelo base pode gerar gargalos.

O S-LoRA aborda essas questões com um gerenciamento de memória dinâmico que troca eficientemente os adaptadores LoRA entre a GPU e a RAM conforme necessário. Seu mecanismo inovador de "Paginamento Unificado" garante uma manipulação eficaz dos caches de modelos de consulta e pesos de adaptadores, permitindo que o servidor processe centenas ou milhares de consultas em lote sem fragmentação da memória.

Além disso, o S-LoRA incorpora um sistema de "paralelismo de tensores" de última geração, garantindo compatibilidade com grandes modelos de transformadores em várias GPUs. Juntas, essas inovações possibilitam que o S-LoRA suporte numerosos adaptadores LoRA em uma única GPU ou em múltiplas GPUs.

Atendendo a Milhares de Modelos Simultaneamente

Pesquisadores avaliaram o S-LoRA utilizando várias versões do modelo Llama de código aberto da Meta em diferentes configurações de GPU. Os resultados demonstraram que o S-LoRA se destaca na manutenção de eficiência de throughput e memória em escala.

Em benchmarks contra a principal biblioteca de ajuste fino eficiente em parâmetros, Hugging Face PEFT, o S-LoRA alcançou um aumento de throughput de até 30 vezes. Comparado ao vLLM, um sistema de atendimento com alta capacidade de resposta e suporte básico à LoRA, o S-LoRA quadruplicou o throughput enquanto aumentou drasticamente o número de adaptadores atendidos em paralelo.

Um recurso notável do S-LoRA é sua capacidade de atender a 2.000 adaptadores simultaneamente, com um custo computacional adicional mínimo. Como explicou Ying Sheng, um estudante de doutorado em Stanford e coautor do artigo, "Os provedores de serviços podem utilizar o mesmo modelo base enquanto personalizam adaptadores para usuários individuais, que podem ser ajustados com dados específicos de cada usuário."

O design do S-LoRA também acomoda a aprendizagem em contexto, permitindo que os usuários se beneficiem de adaptadores personalizados enquanto incorporam dados recentes para melhorar as respostas dos LLMs. "Essa abordagem pode ser mais eficaz e econômica do que os comandos tradicionais em contexto", observou Sheng.

O código do S-LoRA já está disponível no GitHub, e os pesquisadores planejam integrá-lo em frameworks populares de atendimento a LLMs, permitindo que empresas adotem facilmente o S-LoRA em suas aplicações.

OfferFit garante US$ 25 milhões em financiamento para revolucionar o marketing com personalização por meio de aprendizado de máquina, eliminando os testes A/B para sempre.

Transformando a Robótica: Como o Sensor 3D com Inteligência Artificial da Tangram Vision está Revolucionando a Visão Computacional

Most people like

Brella

266.3K

Bem-vindo ao principal evento e plataforma de networking, projetada para conectar profissionais e promover relacionamentos significativos. Experimente oportunidades incomparáveis para expandir sua rede e interagir com líderes do setor.

plataforma de eventos AI Product Description Generator

Lycee AI

Empoderando a Adoção de IA Através da Aprendizagem Ativa para Todos. No atual cenário tecnológico em rápida evolução, democratizar a IA é fundamental. Ao aproveitar a aprendizagem ativa, podemos tornar a IA acessível a usuários diversos, promovendo inovação e inclusão. Junte-se a nós enquanto exploramos o potencial transformador da aprendizagem ativa na promoção da integração ampla da IA.

Inteligência Artificial AI Analytics Assistant

Ellow

41.7K

Descubra os principais desenvolvedores freelancers por meio do nosso rigoroso processo de seleção, garantindo que você se conecte com os melhores talentos do setor.

mercado de talentos AI Recruiting

Trezy

11.2K

Ferramentas Eficazes de Gestão de Fluxo de Caixa para Pequenas Empresas Na economia dinâmica de hoje, as pequenas empresas enfrentam desafios financeiros únicos. Garantir um fluxo de caixa constante é fundamental para manter as operações, cumprir obrigações e promover o crescimento. Este artigo explora as principais ferramentas de gestão de fluxo de caixa voltadas para pequenas empresas, projetadas para simplificar processos financeiros e melhorar a tomada de decisões. Quer você esteja buscando monitorar despesas, prever receitas ou melhorar sua saúde financeira geral, essas ferramentas podem capacitá-lo a assumir o controle do seu fluxo de caixa e impulsionar seu negócio em direção ao sucesso.

Gestão de fluxo de caixa AI Analytics Assistant

Find AI tools in YBX