Recentemente, a Alibaba anunciou o lançamento de código aberto de seu primeiro modelo com 110 bilhões de parâmetros, o Qwen1.5-110B, da série Qwen1.5. Esta iniciativa não apenas demonstra as capacidades inovadoras da Alibaba em inteligência artificial, mas também destaca o progresso significativo das empresas chinesas no desenvolvimento de grandes modelos de linguagem.
O modelo Qwen1.5-110B utiliza uma arquitetura de decodificador Transformer e incorpora a tecnologia Grouped Query Attention (GQA), melhorando a eficiência da inferência. Ele suporta um comprimento máximo de contexto de 32.000 tokens e é capaz de processar vários idiomas, incluindo inglês, chinês, francês, espanhol, alemão, russo, japonês, coreano e vietnamita.
As avaliações de desempenho mostram que o Qwen1.5-110B compete de forma sólida com o Llama3-70B da Meta, conseguindo isso sem alterações significativas em sua metodologia de pré-treinamento. A Alibaba atribui a melhoria no desempenho do modelo principalmente à sua maior escala. Esse resultado reflete a expertise da Alibaba em design e otimização de modelos, ao mesmo tempo em que injecta nova vitalidade no desenvolvimento de grandes modelos de linguagem na China.
Além disso, o Qwen1.5-110B se destaca em avaliações de chat, demonstrando vantagens significativas em relação ao modelo anterior de 72 bilhões de parâmetros nas avaliações MT-Bench e AlpacaEval 2.0. Isso reafirma que modelos de linguagem fundamentais maiores podem melhorar consideravelmente o desempenho de modelos de chat.
A Alibaba enfatiza que o Qwen1.5-110B é o maior modelo da série e o primeiro a ultrapassar 100 bilhões de parâmetros. Essa conquista não apenas solidifica a posição de liderança da Alibaba no campo dos grandes modelos de linguagem, mas também amplifica a voz das empresas chinesas no cenário global de IA.
À medida que as tecnologias de IA continuam a avançar, os grandes modelos de linguagem se tornaram um ponto focal para muitas empresas de tecnologia. O lançamento de código aberto do Qwen1.5-110B oferece aos desenvolvedores uma ferramenta excepcional, impulsionando a proliferação e aplicação da tecnologia de IA.
Olhando para o futuro, esperamos ver mais inovações das empresas chinesas no campo dos grandes modelos de linguagem, enriquecendo ainda mais o desenvolvimento da tecnologia de IA com ideias inovadoras.