알리바바 클라우드(Alibaba Cloud)가 최신 비전-언어 모델 Qwen2-VL을 공개했습니다. 이 모델은 시각 이해, 영상 분석, 다국어 텍스트-이미지 처리를 향상시키는 목표를 가지고 있습니다. Qwen2-VL은 서드파티 벤치마크 테스트를 기반으로 메타(Meta)의 Llama 3.1, 오픈AI(OpenAI)의 GPT-4o, 앤트로픽(Anthropic)의 Claude 3 Haiku, 구글(Google)의 Gemini-1.5 Flash와 같은 최고 모델들을 능가합니다. 사용자는 Hugging Face에서 실험해볼 수 있습니다.
지원 언어: 영어, 중국어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어.
고급 시각 및 영상 분석
알리바바는 Qwen2-VL을 통해 시각 데이터를 활용한 AI 상호작용을 새롭게 정의하고자 합니다. 이 모델은 여러 언어로 된 손글씨를 분석하고, 이미지 내의 객체를 식별 및 설명하며, 실시간에 가까운 방식으로 라이브 비디오를 처리할 수 있어 기술 지원 및 운영 작업에 적합합니다. GitHub에 게시된 블로그 글에서 Qwen 연구팀은 “정적 이미지를 넘어서, Qwen2-VL은 비디오 콘텐츠 분석으로 기능을 확장합니다. 비디오 요약, 관련 질문에 답변, 실시간 대화를 유지할 수 있으며, 사용자의 개인 비서 역할을 수행하여 비디오 콘텐츠로부터 직접 정보를 제공합니다.”라고 강조했습니다. 특히 Qwen2-VL은 20분이 넘는 비디오를 분석하고 그 내용에 대한 질문에도 답할 수 있습니다.
비디오 요약 예시
한 시연에서는 Qwen2-VL이 우주 정거장에서 임무에 대해 이야기하는 우주 비행사들을 주제로 한 비디오를 효과적으로 요약하여, 관객들에게 우주 탐사에 대한 매력적인 통찰을 제공했습니다.
모델 변형 및 오픈 소스 옵션
Qwen2-VL은 Qwen2-VL-72B(720억 매개변수), Qwen2-VL-7B, Qwen2-VL-2B의 세 가지 변형으로 제공됩니다. 7B 및 2B 버전은 Apache 2.0 라이선스 하에 오픈 소스로 제공되어 기업들에게 매력적인 선택이 됩니다. 이 변형들은 경쟁력 있는 성능을 유지하면서도 접근 가능한 규모로 설계되었으며, Hugging Face와 ModelScope와 같은 플랫폼에서 이용 가능합니다. 그러나 가장 큰 72B 모델은 이후 별도의 라이선스와 API를 통해 제공될 예정입니다.
기능과 통합
Qwen2-VL 시리즈는 Qwen 모델 계보를 기반으로 한 여러 발전을 자랑합니다:
- 모바일폰 및 로봇과 같은 장치에 통합되어 시각 및 텍스트 입력을 기반으로 자동화된 작업을 수행합니다.
- 비행 상태 및 패키지 추적과 같은 중요한 정보를 이해하여 제3자 소프트웨어 및 응용 프로그램과의 상호작용을 가능케 하는 기능 호출 기능을 제공합니다.
이러한 기능들은 Qwen2-VL을 복잡한 추론 및 의사 결정이 필요한 작업에 강력한 도구로 자리매김하게 합니다.
구조 혁신
Qwen2-VL은 시각 데이터 처리를 향상시키기 위해 여러 구조적 혁신을 도입했습니다. Naive Dynamic Resolution 지원은 다양한 해상도의 이미지를 처리할 수 있게 하여 시각적 해석의 정확성을 보장합니다. M-ROPE(Multimodal Rotary Position Embedding) 시스템은 텍스트, 이미지, 비디오 전반에 걸쳐 위치 정보를 효과적으로 통합할 수 있게 합니다.
Qwen 팀의 향후 개발
Qwen 팀은 추가적인 모달리티를 통합하고 모델의 적용을 향상시키는 데 전념하고 있습니다. Qwen2-VL 모델은 이러한 최첨단 도구의 가능성을 탐색하려는 개발자와 연구자들에게 이제 제공됩니다.