O Impacto do Tamanho em Modelos de Linguagem de Grande Escala (LLMs)
No universo dos modelos de linguagem de grande escala (LLMs), o tamanho é fundamental, pois determina a eficácia de um modelo em suas operações. A Stability AI, conhecida por sua tecnologia gerativa de IA texto-para-imagem com difusão estável, acaba de lançar um de seus modelos mais compactos: o Stable LM 2 1.6B. Este modelo de geração de conteúdo textual foi apresentado pela primeira vez em abril de 2023, com versões de 3 bilhões e 7 bilhões de parâmetros. O modelo 1.6B é a segunda liberação da empresa em 2024, após o lançamento anterior do Stable Code 3B.
Apresentando o Modelo Compacto Stable LM 2
O novo Stable LM 2 1.6B foi projetado para reduzir barreiras para os desenvolvedores e acelerar a participação no ecossistema de IA generativa. Este modelo compacto, porém poderoso, suporta a geração de texto multilíngue em sete idiomas: inglês, espanhol, alemão, italiano, francês, português e holandês. Ele utiliza avanços recentes em modelagem de linguagem algorítmica para alcançar um equilíbrio ideal entre velocidade e desempenho.
Carlos Riquelme, chefe da equipe de linguagem da Stability AI, afirmou: “Em geral, modelos maiores treinados com dados similares apresentam melhor desempenho do que os menores. No entanto, à medida que os modelos implementam algoritmos aprimorados e são treinados com dados de qualidade, frequentemente vemos modelos menores superando seus predecessores maiores.”
Por que Modelos Menores Podem Superar os Maiores
De acordo com a Stability AI, o Stable LM 2 1.6B supera muitos modelos de linguagem menores com menos de 2 bilhões de parâmetros em diversos benchmarks, incluindo o Phi-2 da Microsoft (2.7B), o TinyLlama 1.1B e o Falcon 1B. Notavelmente, ele também supera versões mais robustas, como o próprio modelo Stable LM 3B da Stability AI.
“Stable LM 2 1.6B apresenta desempenho superior a alguns modelos maiores treinados apenas meses atrás,” observou Riquelme. “Assim como na tecnologia da computação, estamos testemunhando modelos que se tornam menores, mais eficientes e melhores com o tempo.”
Reconhecendo Limitações
Embora o modelo compacto Stable LM 2 1.6B tenha capacidades impressionantes, seu tamanho vem acompanhado de algumas limitações. A Stability AI alerta que, “devido à natureza inerente dos modelos de linguagem pequenos e de baixa capacidade, o Stable LM 2 1.6B pode apresentar problemas comuns, como taxas mais altas de alucinação ou linguagem potencialmente tóxica.”
Transparência e Aprimoramento no Treinamento dos Dados
A Stability AI tem se concentrado em opções de LLM menores, porém mais potentes, há vários meses. Em dezembro de 2023, lançou o modelo StableLM Zephyr 3B, aprimorando o desempenho dentro de um quadro menor do que sua versão inicial.
Riquelme explicou que os novos modelos Stable LM 2 utilizam mais dados, incorporando documentos multilíngues em seis idiomas, além do inglês. Ele enfatizou a importância da ordem em que os dados são apresentados durante o treinamento, sugerindo que tipos variados de dados nas diferentes etapas de treinamento podem melhorar os resultados.
Para facilitar ainda mais o desenvolvimento, a Stability AI está lançando esses modelos em formatos pré-treinados e ajustados, além do que os pesquisadores descrevem como “o último checkpoint do modelo antes do resfriamento do pré-treinamento.”
“Nossa meta é fornecer ferramentas para que os desenvolvedores inovem e construam sobre nossos modelos atuais,” transmitiu Riquelme. “Estamos oferecendo um modelo específico semi-pronto para experimentação.”
Ele elaborou sobre o processo de treinamento, explicando que, à medida que o modelo é atualizado sequencialmente, seu desempenho melhora. O modelo inicial carece de conhecimento, enquanto versões subsequentes acumulam insights a partir dos dados. No entanto, Riquelme também ressaltou que os modelos podem se tornar menos flexíveis ao final do treinamento.
“Decidimos fornecer o modelo em sua forma pré-final de treinamento para facilitar aos usuários especializá-lo para diferentes tarefas ou conjuntos de dados. Embora não possamos garantir sucesso, acreditamos na criatividade das pessoas em utilizar novas ferramentas de maneiras inovadoras.”