A emergência do ChatGPT no final de 2022 desencadeou uma corrida competitiva entre empresas de IA e gigantes da tecnologia, todas visando liderar o mercado em rápida expansão de modelos de linguagem de grande porte (LLMs). Em resposta a essa feroz competição, muitas empresas optaram por oferecer seus modelos de linguagem como serviços proprietários, disponibilizando acesso via API enquanto ocultavam os pesos dos modelos e detalhes sobre seus conjuntos de dados e metodologias de treinamento.
Contrariando a tendência dos modelos proprietários, 2023 testemunhou um crescimento substancial no ecossistema de LLMs de código aberto, destacado pelo lançamento de modelos que podem ser baixados e personalizados para aplicações específicas. Esse desenvolvimento consolidou o código aberto como um ator importante no cenário de LLMs, acompanhando efetivamente as soluções proprietárias.
É Melhor Ser Maior?
Antes de 2023, acreditava-se que aumentar o tamanho dos LLMs era essencial para melhorar o desempenho. Modelos de código aberto como BLOOM e OPT, que se comparam ao GPT-3 da OpenAI, com seus 175 bilhões de parâmetros, exemplificaram essa abordagem. No entanto, esses grandes modelos exigiam recursos computacionais substanciais e expertise para operar de forma eficaz.
Esse paradigma mudou drasticamente em fevereiro de 2023, quando a Meta lançou o Llama, uma série de modelos variando de 7 a 65 bilhões de parâmetros. O Llama provou que modelos menores poderiam igualar o desempenho de seus irmãos maiores, apoiando a ideia de que o tamanho do modelo não é o único determinante de eficácia.
O segredo do sucesso do Llama residiu em seu treinamento em um conjunto de dados muito maior. Enquanto o GPT-3 utilizou cerca de 300 bilhões de tokens, os modelos do Llama ingeriram até 1,4 trilhão de tokens, demonstrando que treinar modelos menores em um conjunto de dados mais amplo pode ser uma abordagem poderosa.
Os Benefícios dos Modelos de Código Aberto
A popularidade do Llama decorreu de duas vantagens principais: sua capacidade de operar em uma única GPU e seu lançamento como código aberto. Essa acessibilidade permitiu que a comunidade de pesquisa construísse rapidamente sobre sua arquitetura e descobertas, impulsionando o surgimento de vários LLMs de código aberto notáveis, como Cerebras-GPT pela Cerebras, Pythia pela EleutherAI, MPT da MosaicML, X-GEN pela Salesforce e Falcon pela TIIUAE.
Em julho de 2023, a Meta lançou o Llama 2, que rapidamente se tornou a base para inúmeros modelos derivados. A Mistral.AI também fez sucesso com a introdução de seus dois modelos—Mistral e Mixtral—ganhando reconhecimento por seu desempenho e custo-benefício.
“Desde o lançamento do Llama original, o cenário de LLMs de código aberto acelerou, com o Mixtral agora reconhecido como o terceiro modelo mais útil em avaliações humanas, atrás do GPT-4 e Claude,” afirmou Jeff Boudier, Head de Produto e Crescimento na Hugging Face.
Modelos adicionais como Alpaca, Vicuna, Dolly e Koala foram desenvolvidos utilizando esses modelos fundamentais, adaptados para aplicações específicas. Dados da Hugging Face revelam que os desenvolvedores criaram milhares de forks e versões especializadas. Notavelmente, existem mais de 14.500 resultados para “Llama”, 3.500 para “Mistral” e 2.400 para “Falcon.” Apesar de seu lançamento em dezembro de 2023, o Mixtral já serviu como base para 150 projetos.
A natureza de código aberto desses modelos favorece a inovação, permitindo que desenvolvedores criem novos modelos e combinem os existentes em várias configurações, aprimorando a praticidade dos LLMs.
O Futuro dos Modelos de Código Aberto
À medida que os modelos proprietários continuam a evoluir, a comunidade de código aberto se mantém uma concorrente formidável. Gigantes da tecnologia estão cada vez mais incorporando modelos de código aberto em seus produtos, reconhecendo seu valor. A Microsoft, principal apoiadora da OpenAI, lançou dois modelos de código aberto, Orca e Phi-2, e melhorou a integração de modelos de código aberto dentro de sua plataforma Azure AI Studio. Da mesma forma, a Amazon apresentou o Bedrock, um serviço em nuvem projetado para hospedar tanto modelos proprietários quanto de código aberto.
“Em 2023, as empresas ficaram amplamente surpresas com as capacidades dos LLMs, especialmente após o sucesso do ChatGPT,” observou Boudier. “Os CEOs encarregaram suas equipes de definir casos de uso de IA Generativa, levando a uma rápida experimentação e aplicações de prova de conceito usando APIs de modelos fechados.”
No entanto, confiar em APIs externas para tecnologias críticas apresenta riscos, incluindo a potencial exposição de códigos fonte sensíveis e dados de clientes—uma estratégia insustentável a longo prazo para empresas focadas em privacidade e segurança de dados.
O emergente ecossistema de código aberto oferece um caminho promissor para empresas que buscam implementar IA generativa enquanto atendem às necessidades de privacidade e conformidade.
“À medida que a IA transforma o desenvolvimento tecnológico, assim como inovações passadas, as organizações precisarão criar e gerenciar soluções de IA internamente, garantindo a privacidade, segurança e conformidade regulatória necessárias para informações de clientes,” concluiu Boudier. “Baseando-se em tendências históricas, isso provavelmente significará abraçar o código aberto.”