A Stability AI Lança um Modelo de Linguagem Compacto e Eficiente de 1,6 Bilhões: Uma Nova Era de Inovação

O Impacto do Tamanho em Modelos de Linguagem de Grande Escala (LLMs)

No universo dos modelos de linguagem de grande escala (LLMs), o tamanho é fundamental, pois determina a eficácia de um modelo em suas operações. A Stability AI, conhecida por sua tecnologia gerativa de IA texto-para-imagem com difusão estável, acaba de lançar um de seus modelos mais compactos: o Stable LM 2 1.6B. Este modelo de geração de conteúdo textual foi apresentado pela primeira vez em abril de 2023, com versões de 3 bilhões e 7 bilhões de parâmetros. O modelo 1.6B é a segunda liberação da empresa em 2024, após o lançamento anterior do Stable Code 3B.

Apresentando o Modelo Compacto Stable LM 2

O novo Stable LM 2 1.6B foi projetado para reduzir barreiras para os desenvolvedores e acelerar a participação no ecossistema de IA generativa. Este modelo compacto, porém poderoso, suporta a geração de texto multilíngue em sete idiomas: inglês, espanhol, alemão, italiano, francês, português e holandês. Ele utiliza avanços recentes em modelagem de linguagem algorítmica para alcançar um equilíbrio ideal entre velocidade e desempenho.

Carlos Riquelme, chefe da equipe de linguagem da Stability AI, afirmou: “Em geral, modelos maiores treinados com dados similares apresentam melhor desempenho do que os menores. No entanto, à medida que os modelos implementam algoritmos aprimorados e são treinados com dados de qualidade, frequentemente vemos modelos menores superando seus predecessores maiores.”

Por que Modelos Menores Podem Superar os Maiores

De acordo com a Stability AI, o Stable LM 2 1.6B supera muitos modelos de linguagem menores com menos de 2 bilhões de parâmetros em diversos benchmarks, incluindo o Phi-2 da Microsoft (2.7B), o TinyLlama 1.1B e o Falcon 1B. Notavelmente, ele também supera versões mais robustas, como o próprio modelo Stable LM 3B da Stability AI.

“Stable LM 2 1.6B apresenta desempenho superior a alguns modelos maiores treinados apenas meses atrás,” observou Riquelme. “Assim como na tecnologia da computação, estamos testemunhando modelos que se tornam menores, mais eficientes e melhores com o tempo.”

Reconhecendo Limitações

Embora o modelo compacto Stable LM 2 1.6B tenha capacidades impressionantes, seu tamanho vem acompanhado de algumas limitações. A Stability AI alerta que, “devido à natureza inerente dos modelos de linguagem pequenos e de baixa capacidade, o Stable LM 2 1.6B pode apresentar problemas comuns, como taxas mais altas de alucinação ou linguagem potencialmente tóxica.”

Transparência e Aprimoramento no Treinamento dos Dados

A Stability AI tem se concentrado em opções de LLM menores, porém mais potentes, há vários meses. Em dezembro de 2023, lançou o modelo StableLM Zephyr 3B, aprimorando o desempenho dentro de um quadro menor do que sua versão inicial.

Riquelme explicou que os novos modelos Stable LM 2 utilizam mais dados, incorporando documentos multilíngues em seis idiomas, além do inglês. Ele enfatizou a importância da ordem em que os dados são apresentados durante o treinamento, sugerindo que tipos variados de dados nas diferentes etapas de treinamento podem melhorar os resultados.

Para facilitar ainda mais o desenvolvimento, a Stability AI está lançando esses modelos em formatos pré-treinados e ajustados, além do que os pesquisadores descrevem como “o último checkpoint do modelo antes do resfriamento do pré-treinamento.”

“Nossa meta é fornecer ferramentas para que os desenvolvedores inovem e construam sobre nossos modelos atuais,” transmitiu Riquelme. “Estamos oferecendo um modelo específico semi-pronto para experimentação.”

Ele elaborou sobre o processo de treinamento, explicando que, à medida que o modelo é atualizado sequencialmente, seu desempenho melhora. O modelo inicial carece de conhecimento, enquanto versões subsequentes acumulam insights a partir dos dados. No entanto, Riquelme também ressaltou que os modelos podem se tornar menos flexíveis ao final do treinamento.

“Decidimos fornecer o modelo em sua forma pré-final de treinamento para facilitar aos usuários especializá-lo para diferentes tarefas ou conjuntos de dados. Embora não possamos garantir sucesso, acreditamos na criatividade das pessoas em utilizar novas ferramentas de maneiras inovadoras.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles