Na competição atual de IA, onde gigantes da tecnologia correm para criar modelos de linguagem cada vez maiores (LLMs), uma tendência significativa está surgindo: pequeno é o novo grande. Com os avanços nos LLMs apresentando sinais de estagnação, pesquisadores e desenvolvedores estão redirecionando seu foco para modelos de linguagem pequenos (SLMs). Esses modelos compactos, eficientes e adaptáveis estão redefinindo o cenário da IA, desafiando a ideia de que maior é sempre melhor.
Os LLMs estão começando a estagnar?
Comparações recentes de desempenho realizadas pela Vellum e HuggingFace revelam que a diferença entre os LLMs está diminuindo. Isso é especialmente visível em tarefas como questões de múltipla escolha, raciocínio e problemas matemáticos, onde os melhores modelos apresentam diferenças de desempenho mínimas. Por exemplo, em cenários de múltipla escolha, Claude 3 Opus, GPT-4 e Gemini Ultra alcançam pontuações acima de 83%. Nas tarefas de raciocínio, os resultados são igualmente competitivos, com Claude 3 Opus, GPT-4 e Gemini 1.5 Pro superando 92% de precisão.
Modelos menores como Mixtral 8x7B e Llama 2 – 70B estão apresentando resultados promissores em áreas específicas, superando alguns de seus maiores concorrentes. Isso sugere que fatores como arquitetura, dados de treinamento e técnicas de ajuste fino podem desempenhar papéis cruciais no desempenho, desafiando a crença de que o tamanho é o principal determinante.
Gary Marcus, ex-chefe da Uber AI e autor de "Rebooting AI," observa que pesquisas recentes apontam para uma convergência no desempenho dos modelos. “Embora alguns modelos novos possam superar ligeiramente o GPT-4, não houve um avanço significativo em mais de um ano,” diz Marcus.
Com a diferença de desempenho se estreitando, surgem questões sobre se os LLMs estão realmente estagnando. Se essa tendência continuar, o desenvolvimento futuro de IA pode mudar de simplesmente aumentar o tamanho dos modelos para explorar arquiteturas mais eficientes e especializadas.
Desvantagens da abordagem LLM
Apesar de sua potência, os LLMs apresentam desvantagens significativas. O treinamento desses modelos exige vastos conjuntos de dados e imensos recursos computacionais, tornando o processo intensivo em recursos. Por exemplo, o CEO da OpenAI, Sam Altman, revelou que o treinamento do GPT-4 custou pelo menos 100 milhões de dólares. A complexidade em torno dos LLMs impõe uma curva de aprendizado acentuada para os desenvolvedores, criando barreiras de acessibilidade. As empresas podem levar 90 dias ou mais para implantar um único modelo de aprendizado de máquina, desacelerando a inovação.
Outro problema é a tendência dos LLMs de gerar "alucinações", produzindo resultados que parecem plausíveis, mas são falsos. Essa limitação surge porque os LLMs preveem palavras com base em padrões de treinamento, carecendo de verdadeira compreensão. Portanto, saídas incorretas ou sem sentido podem emergir com confiança, representando riscos em aplicações críticas, como saúde e direção autônoma.
A natureza em grande escala e opaca dos LLMs dificulta a interpretação e a depuração, que são cruciais para garantir confiança nos resultados. Além disso, dados de treinamento enviesados podem levar a resultados prejudiciais, enquanto tentativas de tornar os LLMs mais confiáveis podem, inadvertidamente, reduzir sua eficácia.
A entrada dos Modelos de Linguagem Pequenos (SLMs)
Os SLMs apresentam uma solução para muitos desafios impostos pelos LLMs. Com menos parâmetros e designs mais simples, os SLMs exigem menos dados e tempo de treinamento—geralmente apenas minutos ou algumas horas, em comparação com os LLMs que levam dias. Essa eficiência possibilita uma implementação mais fácil em dispositivos menores.
Uma das grandes vantagens dos SLMs é sua adaptabilidade para aplicações específicas. Eles podem ser ajustados para áreas como análise de sentimentos ou perguntas específicas de domínios, resultando em desempenho superior em comparação com modelos de uso geral. Essa especialização melhora a eficiência em tarefas direcionadas.
Além disso, os SLMs oferecem maior privacidade e segurança. Sua arquitetura mais simples facilita a auditoria e diminui a probabilidade de vulnerabilidades, o que é crítico em setores como saúde e finanças. A necessidade reduzida de computação significa que os SLMs podem operar localmente em dispositivos, melhorando a segurança dos dados e minimizando riscos de exposição durante a transferência de dados.
Os SLMs são menos propensos a alucinações, pois geralmente são treinados em conjuntos de dados mais restritos relevantes para suas aplicações. Esse foco reduz a probabilidade de gerar saídas irrelevantes, resultando em um desempenho mais confiável.
Clem Delangue, CEO da HuggingFace, sugere que até 99% dos casos de uso poderiam ser efetivamente atendidos com SLMs, prevendo um aumento em sua adoção em 2024. A HuggingFace fez parceria com o Google, integrando sua plataforma ao Vertex AI do Google, possibilitando a rápida implantação de milhares de modelos.
A Iniciativa Gemma do Google
Após inicialmente perder terreno para a OpenAI na corrida dos LLMs, o Google agora está buscando o desenvolvimento de SLMs de forma agressiva. Em fevereiro, o Google lançou a Gemma, uma série de modelos de linguagem pequenos projetados para eficiência e facilidade de uso. Esses modelos podem operar em dispositivos padrão, como smartphones e laptops, sem exigir recursos extensivos.
Desde seu lançamento, os modelos Gemma treinados foram baixados mais de 400.000 vezes na HuggingFace, gerando projetos inovadores. Um desenvolvimento notável é o Cerule, um poderoso modelo de imagem e linguagem que combina o Gemma 2B com o SigLIP do Google, capaz de ter um bom desempenho sem grandes dados. Outro exemplo é o CodeGemma, uma versão especializada focada em codificação e raciocínio matemático, oferecendo modelos sob medida para diversas atividades relacionadas a programação.
O potencial transformador dos SLMs
À medida que a comunidade de IA aprofunda os benefícios dos SLMs, as vantagens de ciclos de desenvolvimento mais rápidos, eficiência aprimorada e soluções específicas tornam-se mais claras. Os SLMs têm o potencial de democratizar o acesso à IA e fomentar a inovação em diversos setores, possibilitando aplicações específicas e de baixo custo.
Implantar SLMs na borda abre possibilidades para aplicações em tempo real, personalizadas e seguras em setores como finanças, entretenimento, automotivo, educação, comércio eletrônico e saúde. Processando dados localmente e minimizando a dependência da infraestrutura em nuvem, os SLMs melhoram a privacidade dos dados e a experiência do usuário.
Com os LLMs enfrentando desafios relacionados às demandas computacionais e potenciais plateaus de desempenho, a ascensão dos SLMs promete impulsionar o ecossistema de IA para frente em um ritmo impressionante.