A liberação de código aberto do modelo avançado de linguagem grande da Meta, Llama 2, tem recebido aclamação significativa entre desenvolvedores e pesquisadores, especialmente por sua acessibilidade. Este modelo inspirou o desenvolvimento de vários sistemas de IA, incluindo Vicuna, Alpaca e o próprio Llama 2 Long da Meta. No entanto, operar o Llama 2 pode ser consideravelmente mais caro do que utilizar alternativas proprietárias. Relatórios indicam que muitas startups estão enfrentando custos operacionais entre 50% a 100% mais altos ao utilizar o Llama 2 em comparação ao GPT-3.5 Turbo da OpenAI, embora o avançado GPT-4 continue ainda mais caro. Ambos os modelos de linguagem são fundamentais para o ChatGPT.
Em alguns casos, a diferença de custo pode ser surpreendente. Os fundadores da startup de chatbot Cypher realizaram testes utilizando o Llama 2 em agosto, incorrendo em custos elevados de $1.200, enquanto os mesmos testes no GPT-3.5 Turbo custaram apenas $5. Recentemente, a OpenAI introduziu um novo modelo mais econômico, o GPT-4 Turbo, que opera a um centavo por 100 tokens de entrada e é três vezes menos caro que a versão anterior de 8K do GPT-4. Durante seu evento DevDay, a OpenAI incentivou desenvolvedores a explorar o novo modelo, oferecendo $500 em créditos de API gratuitos a cada participante. Embora o Llama 2 ofereça acesso livre, a diferença significativa nos custos operacionais pode desencorajar as empresas a adotá-lo.
Compreendendo a Disparidade de Custos
Um fator chave que contribui para os altos custos associados a modelos de código aberto está na infraestrutura utilizada pelas empresas. A OpenAI consegue processar milhões de solicitações de forma eficiente, agrupando-as para um processamento simultâneo em chips de alta performance. Em contraste, startups como a Cypher, que dependem de modelos de código aberto e alugam servidores especializados por meio de provedores de nuvem, podem não gerar tráfego suficiente para alcançar eficiências semelhantes, limitando sua capacidade de aproveitar todo o potencial dos servidores.
Os custos operacionais relacionados a modelos de linguagem grande de código aberto podem variar dramaticamente, dependendo das tarefas específicas realizadas, do volume de solicitações e do nível de personalização necessário. Para tarefas simples, como sumarização, os custos podem permanecer relativamente baixos, enquanto funções mais complexas podem exigir investimentos maiores. Bradley Shimmin, analista-chefe em AI e análise de dados, destaca que há pouca transparência em torno das estratégias de gerenciamento de custos empregadas pela OpenAI. “A OpenAI provavelmente se beneficia de economias de escala que não estão acessíveis a pequenas empresas que tentam hospedar modelos extensos em plataformas de nuvem como AWS ou Azure”, sugere.
Desalinhamento de Recursos
Uma análise recente da Permutable.ai revelou seus custos operacionais ao utilizar a tecnologia da OpenAI, estimando cerca de $1 milhão por ano—20 vezes o custo de usar modelos internos. Wilson Chan, CEO da Permutable.ai, compara o uso do ChatGPT para tarefas menores a usar um “martelo para quebrar uma noz”—efetivo, mas excessivamente contundente. Ele alerta sobre os recursos computacionais e financeiros atrelados a modelos pesados para tarefas rotineiras, enfatizando a importância de alinhar a capacidade do modelo de IA com as necessidades práticas para garantir eficiência de custos.
Explorando Estruturas de Custo
As despesas operacionais para modelos de linguagem grande variam significativamente, principalmente com base em seu tamanho. O Llama 2 está disponível em várias configurações, com a maior versão apresentando 70 bilhões de parâmetros. Modelos maiores exigem uma potência computacional substancial para treinamento e execução, mas frequentemente oferecem desempenho aprimorado. Victor Botev, CTO e cofundador da Iris.ai, observa que os parâmetros podem ser otimizados por meio de técnicas como quantização para reduzir os custos operacionais. Embora isso possa diminuir as despesas, pode comprometer a qualidade da resposta, pelo que a decisão deve ser cuidadosamente avaliada de acordo com as necessidades do usuário.
Para implantações locais, modelos com menos de 100 bilhões de parâmetros exigem pelo menos uma caixa DGX, que custa cerca de $200.000. O custo anual de hardware para rodar o Llama 2 localmente pode alcançar aproximadamente $65.000. Em ambientes de nuvem, os custos operacionais variam de acordo com o tamanho do modelo. Para aqueles com menos de 15 bilhões de parâmetros, a despesa mensal é de cerca de $1.000, ou $12.000 anualmente, enquanto que para modelos com cerca de 70 bilhões de parâmetros, os custos aumentam para aproximadamente $1.500 por mês, totalizando $18.000 ao ano.
A maioria dos modelos padrão raramente atende aos padrões de qualidade das empresas, levando à necessidade de várias técnicas de ajuste. O ajuste de prompt é o método menos caro, variando de $10 a $1.000, enquanto os custos de ajuste de instruções variam de $100 a $10.000. O ajuste fino, que altera atributos fundamentais do modelo, pode ser imprevisível, com médias em torno de $100.000 para modelos menores (1-5 bilhões de parâmetros) e atingindo milhões para configurações maiores.
Uma Mudança em Direção a Modelos Menores
Diante dessas considerações, o surgimento de modelos menores e mais econômicos para aplicações específicas oferece uma alternativa promissora. Versões do Llama 2 com sete bilhões e 13 bilhões de parâmetros já estão disponíveis, e modelos inovadores como o Phi 1.5 da Microsoft e o Pythia-1b da EleutherAI estão ganhando destaque.
No entanto, como destaca Lian Jye Su, analista-chefe da Omdia, as ofertas de código aberto raramente são baratas, especialmente quando personalizações ou melhorias estão envolvidas. Além disso, enquanto todos os modelos da OpenAI são proprietários, algumas empresas podem preferir evitar compartilhar receitas por meio de licenças ou royalties, relegando o custo do modelo a uma prioridade menos crítica. Anurag Gurtu, CPO da StrikeReady, enfatiza que as startups devem equilibrar os custos do modelo com os potenciais retornos sobre investimento. “Modelos de IA podem fomentar inovação, aprimorar experiências do usuário e otimizar operações. À medida que avançamos, o surgimento de modelos mais eficientes e soluções econômicas promete tornar a IA mais acessível para startups e desenvolvedores”, prevê.
Acesso a Recursos Computacionais
Outro fator significativo que influencia os custos operacionais é o acesso ao hardware. No cenário competitivo atual, as empresas estão ansiosas para implantar tecnologias de IA, necessitando de recursos computacionais robustos. No entanto, a demanda superou a oferta. A Nvidia, líder de mercado, divulgou recentemente uma demanda considerável por suas GPUs, com entregas substanciais no segundo trimestre. À medida que concorrentes como AMD e Intel se preparam com seus próprios chips de IA, a necessidade de acesso confiável a poder computacional torna-se vital.
Com a disponibilidade limitada de hardware, as empresas podem enfrentar custos inflacionados para atender a seus requisitos computacionais. GPUs alugáveis de provedores como Hugging Face, NexGen Cloud e AWS estão disponíveis, mas os requisitos intensivos de modelos como o Llama 2 exigem recursos computacionais poderosos. Tara Waters, diretora digital e sócia da Ashurst, observa que a precificação baseada no consumo de modelos públicos pode desencorajar algumas startups a permitir que potenciais clientes explorem e experimentem antes da compra. Embora a disponibilidade de modelos de código aberto possa aliviar alguns desafios, traz novas barreiras, como a necessidade de infraestrutura adequada para hospedar e implantar esses modelos de forma eficaz.
À medida que o cenário evolui, estratégias inovadoras estão surgindo para gerenciar o consumo e os custos dos modelos de IA. Explorar engenharia de prompt sem hospedar o modelo ou desenvolver soluções intermediárias para otimizar a alocação de recursos para consultas repetitivas demonstra a engenhosidade requerida para navegar no atual ecossistema de IA.