알리바바, 20분 이상의 동영상 분석 가능한 AI 모델 Qwen2-VL 공개

Home AI 뉴스 알리바바, 20분 이상의 동영상 분석 가능한 AI 모델 Qwen2-VL 공개

알리바바 클라우드(Alibaba Cloud)가 최신 비전-언어 모델 Qwen2-VL을 공개했습니다. 이 모델은 시각 이해, 영상 분석, 다국어 텍스트-이미지 처리를 향상시키는 목표를 가지고 있습니다. Qwen2-VL은 서드파티 벤치마크 테스트를 기반으로 메타(Meta)의 Llama 3.1, 오픈AI(OpenAI)의 GPT-4o, 앤트로픽(Anthropic)의 Claude 3 Haiku, 구글(Google)의 Gemini-1.5 Flash와 같은 최고 모델들을 능가합니다. 사용자는 Hugging Face에서 실험해볼 수 있습니다.

지원 언어: 영어, 중국어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어.

고급 시각 및 영상 분석

알리바바는 Qwen2-VL을 통해 시각 데이터를 활용한 AI 상호작용을 새롭게 정의하고자 합니다. 이 모델은 여러 언어로 된 손글씨를 분석하고, 이미지 내의 객체를 식별 및 설명하며, 실시간에 가까운 방식으로 라이브 비디오를 처리할 수 있어 기술 지원 및 운영 작업에 적합합니다. GitHub에 게시된 블로그 글에서 Qwen 연구팀은 “정적 이미지를 넘어서, Qwen2-VL은 비디오 콘텐츠 분석으로 기능을 확장합니다. 비디오 요약, 관련 질문에 답변, 실시간 대화를 유지할 수 있으며, 사용자의 개인 비서 역할을 수행하여 비디오 콘텐츠로부터 직접 정보를 제공합니다.”라고 강조했습니다. 특히 Qwen2-VL은 20분이 넘는 비디오를 분석하고 그 내용에 대한 질문에도 답할 수 있습니다.

비디오 요약 예시

한 시연에서는 Qwen2-VL이 우주 정거장에서 임무에 대해 이야기하는 우주 비행사들을 주제로 한 비디오를 효과적으로 요약하여, 관객들에게 우주 탐사에 대한 매력적인 통찰을 제공했습니다.

모델 변형 및 오픈 소스 옵션

Qwen2-VL은 Qwen2-VL-72B(720억 매개변수), Qwen2-VL-7B, Qwen2-VL-2B의 세 가지 변형으로 제공됩니다. 7B 및 2B 버전은 Apache 2.0 라이선스 하에 오픈 소스로 제공되어 기업들에게 매력적인 선택이 됩니다. 이 변형들은 경쟁력 있는 성능을 유지하면서도 접근 가능한 규모로 설계되었으며, Hugging Face와 ModelScope와 같은 플랫폼에서 이용 가능합니다. 그러나 가장 큰 72B 모델은 이후 별도의 라이선스와 API를 통해 제공될 예정입니다.

기능과 통합

Qwen2-VL 시리즈는 Qwen 모델 계보를 기반으로 한 여러 발전을 자랑합니다:

- 모바일폰 및 로봇과 같은 장치에 통합되어 시각 및 텍스트 입력을 기반으로 자동화된 작업을 수행합니다.

- 비행 상태 및 패키지 추적과 같은 중요한 정보를 이해하여 제3자 소프트웨어 및 응용 프로그램과의 상호작용을 가능케 하는 기능 호출 기능을 제공합니다.

이러한 기능들은 Qwen2-VL을 복잡한 추론 및 의사 결정이 필요한 작업에 강력한 도구로 자리매김하게 합니다.

구조 혁신

Qwen2-VL은 시각 데이터 처리를 향상시키기 위해 여러 구조적 혁신을 도입했습니다. Naive Dynamic Resolution 지원은 다양한 해상도의 이미지를 처리할 수 있게 하여 시각적 해석의 정확성을 보장합니다. M-ROPE(Multimodal Rotary Position Embedding) 시스템은 텍스트, 이미지, 비디오 전반에 걸쳐 위치 정보를 효과적으로 통합할 수 있게 합니다.

Qwen 팀의 향후 개발

Qwen 팀은 추가적인 모달리티를 통합하고 모델의 적용을 향상시키는 데 전념하고 있습니다. Qwen2-VL 모델은 이러한 최첨단 도구의 가능성을 탐색하려는 개발자와 연구자들에게 이제 제공됩니다.

메타, 오픈 소스 AI 혁명을 선도하며 Llama 다운로드 수 10배 증가

끊임없이 일하는 동료: 에이전틱 AI가 소프트웨어 개발 팀에 혁신을 가져오고 있는 방법

Most people like

Teloz

78.3K

텔로즈는 효율적인 콜센터 관리를 위한 첨단 기능이 장착된 최첨단 클라우드 기반 커뮤니케이션 솔루션을 제공합니다.

클라우드 컨택 센터 Other

Gening AI

220.6K

아이디어를 매력적인 비주얼로 쉽게 변환하세요. 최첨단 기술을 활용하여 간단한 텍스트 프롬프트로 아름다운 이미지를 생성할 수 있습니다. 영감을 찾는 디자이너이든, 개념을 현실로 전환하고 싶든, 우리 플랫폼은 단어를 돋보이는 그래픽으로 손쉽게 변환할 수 있도록 도와줍니다. 오늘 창의적인 가능성의 세계에 빠져보세요!

AI 이미지 생성기 AI Photo & Image Generator

Vendasta

160.7K

디지털 제품 판매를 효과적으로 향상하고 확장하기 위해 설계된 AI 기반 SaaS 플랫폼을 소개합니다.

AI 기반 AI Advertising Assistant

Happy Scribe

2.2M

오디오를 텍스트로 변환하고 정확한 동영상 자막을 손쉽게 추가하세요. 청중의 접근성과 참여를 높이기 위해 설계된 고품질 전사 서비스를 경험해 보세요.

전사 Speech-to-Text

Find AI tools in YBX