阿里云Qwen2 AI模型发布:提升性能,支持128K长文本处理令牌

今天,阿里巴巴云宣布其AI开源模型系列的升级,现已更名为Qwen2。此次更新推出了五个经过预训练和指令调优的不同规模的模型,显著提升了在编程、数学等多项功能上的性能,同时支持更长的上下文长度。

Qwen2系列包括五个模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。其中,Qwen2-72B-Instruct模型的上下文长度可达到128K个标记,提供了卓越的文本处理能力。

在训练数据方面,Qwen2系列结合了来自27种语言的高质量数据,进一步增强了其多语言处理能力,这些语言包括中文和英文。所有模型均采用基于梯度的量化感知训练(GQA)技术,加快推理速度,降低内存使用,从而为用户提供更高效、更稳定的体验。

评估结果显示,Qwen2系列的大型模型表现出显著的改进。特别是,Qwen2-72B模型在自然语言理解、知识处理、编程、数学以及多语言能力方面超越了领先的Llama-3-70B和Qwen1.5-110B模型。这一成就彰显了Qwen2系列在AI模型开发中的领先地位。

作为阿里巴巴云对AI创新与发展的承诺,Qwen2系列的发布不仅带来了先进高效的AI模型,也展现了阿里巴巴云在AI领域的技术实力和创新能力。我们期待Qwen未来推出更多卓越的AI模型和技术,为这一领域的进步做出更大贡献。

Most people like

Find AI tools in YBX