Como Modelos de Linguagem Menores Podem Reduzir Significativamente os Custos de IA Generativa

Os crescentes custos associados aos grandes modelos de linguagem (LLMs) que impulsionam a IA generativa estão gerando preocupações significativas na indústria tech. No entanto, modelos menores oferecem uma solução promissora. “O surgimento de LLMs como o GPT-4 demonstrou avanços notáveis em desempenho, mas essas melhorias também levaram a um aumento nos custos”, afirmou Adnan Masood, arquiteto-chefe de IA da UST, em uma entrevista recente. Ele destacou que as exigências computacionais dos LLMs — devido a seus tamanhos gigantescos e bilhões de parâmetros — demandam um consumo energético considerável, resultando em despesas operacionais elevadas e preocupações ambientais.

“Com tamanhos de modelo frequentemente superando a capacidade de memória das GPUs, há uma crescente dependência de hardware especializado ou de complexos paralelismos de modelo, o que aumenta ainda mais os custos de infraestrutura”, acrescentou Masood. Ele enfatizou que modelos de linguagem menores podem não apenas reducir custos, mas também aumentar a eficiência quando bem ajustados. Técnicas como destilação de modelo e quantização podem comprimir e otimizar efetivamente esses modelos menores. A destilação envolve treinar um modelo menor com saídas de um modelo maior, enquanto a quantização reduz a precisão dos pesos numéricos do modelo, criando um modelo que é menor e mais rápido.

A redução no número de parâmetros dos modelos menores traduz-se diretamente em menores necessidades de poder computacional, permitindo inferências mais rápidas e, possivelmente, tempos de treinamento mais curtos. “Esse tamanho compacto possibilita uma integração perfeita na memória padrão de GPUs, eliminando efetivamente a necessidade de configurações de hardware especializado mais caras”, detalhou. Essa diminuição no uso de computação e memória não apenas reduz o consumo de energia, mas também diminui os custos operacionais. Utilizar APIs para provas de conceito iniciais ou protótipos em cargas de produção traz benefícios adicionais para as organizações, especialmente devido aos menores custos por token durante a escalabilidade. No entanto, Masood alertou que confiar apenas em modelos de linguagem maiores pode resultar em picos de custo exponenciais quando as aplicações crescem rapidamente.

Além de reduzir o tempo e os custos de treinamento, os modelos de linguagem menores podem aliviar significativamente as despesas com infraestrutura em nuvem, como destacado por Matt Barrington, líder de tecnologia emergente da EY para as Américas. Por exemplo, o ajuste fino de um modelo específico de domínio em plataformas de nuvem resulta em menor utilização de recursos. Essa mudança permite que as empresas alavanquem seus recursos de IA de maneira mais eficaz, concentrando-se em áreas que as aproximam do usuário final. “Adotando modelos compactos de linguagem na computação em borda, as empresas podem diminuir a dependência de recursos de nuvem caros, levando a economias substanciais”, afirmou.

Já existem vários exemplos promissores de modelos de IA eficientes sendo implantados atualmente. Modelos recentes como phi-1.5 demonstram capacidades de desempenho que rivalizam com as de modelos maiores, como o GPT-4, segundo Masood. Além disso, modelos especializados como o Med-PaLM 2 são desenvolvidos especificamente para o setor de saúde, e o Sec-Palm é projetado para aplicações de segurança. Modelos como Llama 2 70b estão emergindo como alternativas econômicas, com preços significativamente inferiores aos concorrentes, como o PaLM 2 do Google, mostrando uma redução acentuada em relação a versões anteriores. Notavelmente, o LLaMA de 13 bilhões de parâmetros da Meta superou o maior GPT-3 em várias métricas.

Iniciativas como o desafio BabyLM da Universidade Johns Hopkins visam aprimorar a eficácia de modelos menores para rivalizar com os LLMs. Além disso, a Amazon oferece um marketplace para esses modelos compactos que podem ser adaptados às necessidades de dados específicos das empresas. Organizações como Anyscale e MosaicML também estão comercializando modelos, como o Llama 2 de 70 bilhões de parâmetros, a preços acessíveis, destacando uma crescente mudança em direção a soluções eficazes e econômicas.

Com os custos dos grandes modelos de linguagem continuando a subir, a urgência em encontrar alternativas economicamente viáveis torna-se cada vez mais evidente. O treinamento desses modelos envolve despesas significativas, especialmente para GPUs como a H100 da Nvidia, que podem custar mais de $30.000 cada. “Há uma lista de espera para essas GPUs, com alguns investidores de capital de risco até usando-as para atrair startups para financiamento”, notou Muddu Sudhakar, CEO da Aisera.

Mesmo ao adquirir GPUs, gerar receita significativa é essencial para compensar seus altos custos, apontou Sudhakar. Ele mencionou um recente blog da empresa de capital de risco Sequoia, destacando uma lacuna significativa de monetização que pode dificultar o crescimento do mercado de IA generativa. “Uma vez que a GPU é garantida, as empresas enfrentam o desafio de recrutar cientistas de dados, cujos pacotes de compensação podem ser consideráveis”, explicou. “Além disso, operacionalizar LLMs é oneroso devido às demandas contínuas de processamento de interações, gerenciamento e atualização de modelos, e a resolução de várias questões de segurança.”

Olhando para o futuro, Masood acredita que LLMs ajustados podem alcançar níveis de desempenho semelhantes aos de seus homólogos maiores, mas a uma fração do custo. A comunidade de código aberto já está enfrentando desafios práticos com inovações como o LongLoRA, que estende significativamente as janelas de contexto. “Se as tendências atuais são um indicativo, podemos em breve testemunhar uma síntese de modelos de código aberto e LLMs menores, formando a base do ecossistema de modelagem de linguagem de próxima geração”, concluiu.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles