알리바바, 메타의 Llama 3-70B 성능에 버금가는 오픈 소스 Qwen 1.5-110B 모델 공개

최근 알리바바는 Qwen1.5 시리즈의 첫 번째 1100억 개 매개변수 모델인 Qwen1.5-110B의 오픈 소스 출시를 발표했습니다. 이 initiative는 인공지능 분야에서 알리바바의 혁신 능력을 보여줄 뿐만 아니라, 중국 기업들이 대규모 언어 모델 개발에서 이룬 중요한 진전을 강조합니다.

Qwen1.5-110B 모델은 Transformer 디코더 아키텍처를 활용하며, Grouped Query Attention (GQA) 기술을 도입해 추론 효율성을 향상시킵니다. 최대 32,000 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 일본어, 한국어 및 베트남어 등 여러 언어를 처리할 수 있습니다.

성능 평가 결과, Qwen1.5-110B는 Meta의 Llama3-70B와 강력하게 경쟁하며, 이전의 사전 훈련 방식에 큰 변화를 주지 않고도 이 성과를 달성했습니다. 알리바바는 모델 성능 개선의 주된 원인을 규모의 확대에 두고 있습니다. 이는 모델 설계 및 최적화에 대한 알리바바의 전문성을 반영하며, 중국의 대규모 언어 모델 개발에 새로운 활력을 불어넣습니다.

더불어 Qwen1.5-110B는 MT-Bench 및 AlpacaEval 2.0 평가에서 이전의 72B 모델보다 상당한 장점을 보여주며 채팅 평가에서 뛰어난 성과를 발휘합니다. 이는 대규모 기초 언어 모델이 채팅 모델 성능을 크게 향상시킬 수 있음을 다시 한번 확인시켜 줍니다.

알리바바는 Qwen1.5-110B가 시리즈 중 가장 큰 모델이며 1000억 개 이상의 매개변수를 초과한 첫 모델임을 강조합니다. 이 성과는 알리바바의 대규모 언어 모델 분야에서의 선도적인 입지를 확고히 할 뿐 아니라, 글로벌 AI 환경에서 중국 기업들의 목소리를 더욱 강화합니다.

AI 기술이 계속 발전함에 따라 대규모 언어 모델은 많은 기술 기업들의 주요 관심사로 자리잡고 있습니다. Qwen1.5-110B의 오픈 소스 출시는 개발자들에게 뛰어난 도구를 제공하며, AI 기술의 확산과 응용을 촉진합니다.

앞으로 우리는 중국 기업들이 대규모 언어 모델 분야에서 더 많은 혁신을 이루어 AI 기술 발전에 기여하는 모습을 기대합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles