알리바바, 20분 이상의 동영상 분석 가능한 AI 모델 Qwen2-VL 공개

Home AI 뉴스 알리바바, 20분 이상의 동영상 분석 가능한 AI 모델 Qwen2-VL 공개

알리바바 클라우드(Alibaba Cloud)가 최신 비전-언어 모델 Qwen2-VL을 공개했습니다. 이 모델은 시각 이해, 영상 분석, 다국어 텍스트-이미지 처리를 향상시키는 목표를 가지고 있습니다. Qwen2-VL은 서드파티 벤치마크 테스트를 기반으로 메타(Meta)의 Llama 3.1, 오픈AI(OpenAI)의 GPT-4o, 앤트로픽(Anthropic)의 Claude 3 Haiku, 구글(Google)의 Gemini-1.5 Flash와 같은 최고 모델들을 능가합니다. 사용자는 Hugging Face에서 실험해볼 수 있습니다.

지원 언어: 영어, 중국어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어.

고급 시각 및 영상 분석

알리바바는 Qwen2-VL을 통해 시각 데이터를 활용한 AI 상호작용을 새롭게 정의하고자 합니다. 이 모델은 여러 언어로 된 손글씨를 분석하고, 이미지 내의 객체를 식별 및 설명하며, 실시간에 가까운 방식으로 라이브 비디오를 처리할 수 있어 기술 지원 및 운영 작업에 적합합니다. GitHub에 게시된 블로그 글에서 Qwen 연구팀은 “정적 이미지를 넘어서, Qwen2-VL은 비디오 콘텐츠 분석으로 기능을 확장합니다. 비디오 요약, 관련 질문에 답변, 실시간 대화를 유지할 수 있으며, 사용자의 개인 비서 역할을 수행하여 비디오 콘텐츠로부터 직접 정보를 제공합니다.”라고 강조했습니다. 특히 Qwen2-VL은 20분이 넘는 비디오를 분석하고 그 내용에 대한 질문에도 답할 수 있습니다.

비디오 요약 예시

한 시연에서는 Qwen2-VL이 우주 정거장에서 임무에 대해 이야기하는 우주 비행사들을 주제로 한 비디오를 효과적으로 요약하여, 관객들에게 우주 탐사에 대한 매력적인 통찰을 제공했습니다.

모델 변형 및 오픈 소스 옵션

Qwen2-VL은 Qwen2-VL-72B(720억 매개변수), Qwen2-VL-7B, Qwen2-VL-2B의 세 가지 변형으로 제공됩니다. 7B 및 2B 버전은 Apache 2.0 라이선스 하에 오픈 소스로 제공되어 기업들에게 매력적인 선택이 됩니다. 이 변형들은 경쟁력 있는 성능을 유지하면서도 접근 가능한 규모로 설계되었으며, Hugging Face와 ModelScope와 같은 플랫폼에서 이용 가능합니다. 그러나 가장 큰 72B 모델은 이후 별도의 라이선스와 API를 통해 제공될 예정입니다.

기능과 통합

Qwen2-VL 시리즈는 Qwen 모델 계보를 기반으로 한 여러 발전을 자랑합니다:

- 모바일폰 및 로봇과 같은 장치에 통합되어 시각 및 텍스트 입력을 기반으로 자동화된 작업을 수행합니다.

- 비행 상태 및 패키지 추적과 같은 중요한 정보를 이해하여 제3자 소프트웨어 및 응용 프로그램과의 상호작용을 가능케 하는 기능 호출 기능을 제공합니다.

이러한 기능들은 Qwen2-VL을 복잡한 추론 및 의사 결정이 필요한 작업에 강력한 도구로 자리매김하게 합니다.

구조 혁신

Qwen2-VL은 시각 데이터 처리를 향상시키기 위해 여러 구조적 혁신을 도입했습니다. Naive Dynamic Resolution 지원은 다양한 해상도의 이미지를 처리할 수 있게 하여 시각적 해석의 정확성을 보장합니다. M-ROPE(Multimodal Rotary Position Embedding) 시스템은 텍스트, 이미지, 비디오 전반에 걸쳐 위치 정보를 효과적으로 통합할 수 있게 합니다.

Qwen 팀의 향후 개발

Qwen 팀은 추가적인 모달리티를 통합하고 모델의 적용을 향상시키는 데 전념하고 있습니다. Qwen2-VL 모델은 이러한 최첨단 도구의 가능성을 탐색하려는 개발자와 연구자들에게 이제 제공됩니다.

메타, 오픈 소스 AI 혁명을 선도하며 Llama 다운로드 수 10배 증가

끊임없이 일하는 동료: 에이전틱 AI가 소프트웨어 개발 팀에 혁신을 가져오고 있는 방법

Most people like

Mobirise AI Website Generator

599.3K

오늘날 디지털 세계에서 웹사이트는 기업과 개인 모두에게 필수적입니다. AI의 힘을 활용한 자동 웹사이트 생성은 이 과정을 단순화하여 누구나 매력적이고 기능적인 온라인 존재감을 신속하고 효율적으로 구축할 수 있게 합니다. AI 기술이 웹사이트를 생성하고 관리하며 최적화하는 방식을 혁신적으로 변화시킬 수 있는 방법을 알아보세요.

AI 웹사이트 생성기 AI Website Designer

VideoGen - AI Video Generator

1.4M

단 몇 초 만에 놀라운 AI 기반 비디오를 생성하세요.

비디오젠 AI Video Generator

HumanizerPro

12.9K

AI 생성 텍스트를 매력적이고 인간적인 문체로 변환하여 독자와 공감할 수 있도록 하세요.

AI 휴먼라이저 AI Detector

Publer

4.5M

Publer는 다양한 플랫폼에서 소셜 미디어 게시물을 효율적으로 일정 관리하고 분석하기 위해 설계된 직관적인 도구입니다. 사용자 친화적인 인터페이스와 강력한 기능을 갖춘 Publer는 소셜 미디어 전략 관리를 간소화하여 시간을 절약하고 참여도를 높입니다.

소셜 미디어 일정 관리 AI Social Media Assistant

Find AI tools in YBX