今天,Alibaba Cloud宣布升級其開源AI模型系列,稱為Qwen,現已更新為Qwen2。此次更新推出了五個預訓練並經指導調整的模型,涵蓋各種尺寸,顯著提升了多項功能的性能,包括編碼和數學運算,同時支持更長的上下文長度。
Qwen2系列包括五個模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。其中,Qwen2-72B-Instruct模型能處理高達128K標記的上下文長度,為用戶提供廣泛的文本處理能力。
在訓練數據方面,Qwen2系列整合了27種額外語言的高品質數據,除了中文和英文,顯著提升了其多語言能力。所有模型均採用基於梯度的量化感知訓練(GQA)技術,加速推理速度並減少內存使用,從而提供更高效且穩定的用戶體驗。
評估結果顯示,Qwen2系列的大型模型表現出顯著的改進。具體而言,Qwen2-72B模型在自然語言理解、知識處理、編碼、數學運算及多語言能力上,都超越了領先的模型,如Llama-3-70B和Qwen1.5-110B。這一成就彰顯了Qwen2系列在AI模型開發中的領先地位。
作為Alibaba Cloud對AI創新和發展的承諾,Qwen2系列的發布不僅帶來先進高效的AI模型,也突顯了Alibaba Cloud在AI領域的技術實力和創新能力。我們期待Qwen未來推出更多卓越的AI模型和技術,為該領域的進步做出更大貢獻。