알리바바 클라우드의 Qwen2 AI 모델 소개: 128K 토큰 지원으로 향상된 성능과 긴 문맥 처리 능력

오늘 Alibaba Cloud는 Qwen이라는 AI 오픈 소스 모델 시리즈의 업그레이드, Qwen2를 발표했습니다. 이번 업데이트는 다섯 가지 사전 훈련된 모델을 제공하며, 각기 다른 크기로 코드 및 수학 기능을 포함한 여러 능력에서 성능을 크게 향상시킵니다. 또한 이 모델들은 긴 컨텍스트 길이도 지원합니다.

Qwen2 시리즈은 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B의 다섯 가지 모델로 구성됩니다. 특히 Qwen2-72B-Instruct 모델은 최대 128K 토큰의 컨텍스트 길이를 처리할 수 있어, 사용자에게 광범위한 텍스트 처리 능력을 제공합니다.

훈련 데이터 면에서 Qwen2 시리즈는 중국어와 영어 외에 27개 추가 언어의 고품질 데이터를 통합하여 다국어 능력을 크게 향상시켰습니다. 모든 모델은 Gradient-based Quantization Aware Training (GQA) 기술을 활용하여 추론 속도를 높이고 메모리 사용량을 줄여, 보다 효율적이고 안정적인 사용자 경험을 제공합니다.

평가 결과에 따르면 Qwen2 시리즈의 대형 모델은 현저한 개선을 보였습니다. 특히 Qwen2-72B 모델은 자연어 이해, 지식 처리, 코드 작성, 수학 및 다국어 능력에서 Llama-3-70B와 Qwen1.5-110B와 같은 주요 모델들을 능가했습니다. 이는 Qwen2 시리즈가 AI 모델 개발에서 선도적인 위치를 차지하고 있음을 강조합니다.

Alibaba Cloud의 AI 혁신과 발전에 대한 헌신의 일환으로 Qwen2 시리즈의 출시가 이루어졌으며, 이는 진보적이고 효율적인 AI 모델을 도입할 뿐만 아니라 AI 분야에서 Alibaba Cloud의 기술력과 혁신 능력을 보여줍니다. 앞으로 Qwen으로부터 더 뛰어난 AI 모델과 기술이 출시되어 이 분야의 발전에 기여하기를 기대합니다.

Most people like

Find AI tools in YBX