Hoje, a Alibaba Cloud anunciou uma atualização em sua série de modelos de código aberto de IA, agora chamada Qwen2. Essa atualização traz cinco modelos pré-treinados e ajustados com instruções de tamanhos variados, melhorando significativamente o desempenho em diversas funcionalidades, incluindo programação e operações matemáticas, além de suportar comprimentos de contexto mais longos.
A série Qwen2 inclui cinco modelos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B. Destaca-se o modelo Qwen2-72B-Instruct, que pode lidar com contextos de até 128K tokens, proporcionando uma extensa capacidade de processamento de texto.
Em relação aos dados de treinamento, a série Qwen2 integrou dados de alta qualidade de 27 idiomas adicionais, além do chinês e do inglês, aumentando significativamente suas capacidades multilíngues. Todos os modelos utilizam a tecnologia de Treinamento Consciente de Quantização Baseada em Gradiente (GQA), que acelera a velocidade de inferência e reduz o uso de memória, resultando em uma experiência de usuário mais eficiente e estável.
Os resultados de avaliação indicam que os grandes modelos da série Qwen2 apresentaram melhorias notáveis. Especificamente, o modelo Qwen2-72B supera modelos líderes como Llama-3-70B e Qwen1.5-110B em compreensão de linguagem natural, processamento de conhecimento, programação, matemática e capacidades multilíngues. Esse feito destaca a posição de liderança da série Qwen2 no desenvolvimento de modelos de IA.
Como parte do compromisso da Alibaba Cloud com a inovação e desenvolvimento em IA, o lançamento da série Qwen2 não apenas introduz modelos de IA avançados e eficientes, mas também ressalta a competência tecnológica e a capacidade de inovação da Alibaba Cloud no setor de IA. Estamos ansiosos pelo lançamento futuro de mais modelos e tecnologias excepcionais da Qwen, para contribuir ainda mais com os avanços na área.