Alibaba представила Qwen2-VL — новую модель ИИ, способную анализировать видео продолжительностью более 20 минут.

Alibaba Cloud, облачный сервис китайского гиганта электронной коммерции, представил Qwen2-VL — свою новую модель для работы с визуальными данными и языком, предназначенную для улучшения визуального восприятия, анализа видео и обработки многоязычного текста и изображений.

Qwen2-VL превосходит ведущие модели, такие как Llama 3.1 от Meta, GPT-4o от OpenAI, Claude 3 Haiku от Anthropic и Gemini-1.5 Flash от Google, согласно тестам третьих сторон. С ней можно ознакомиться на платформе Hugging Face.

Поддерживаемые языки: английский, китайский, большинство европейских языков, японский, корейский, арабский и вьетнамский.

Продвинутый анализ визуальных данных и видео

Alibaba стремится переопределить взаимодействие с визуальными данными с помощью Qwen-2VL. Эта модель может анализировать рукописный текст на нескольких языках, определять и описывать объекты на изображениях и обрабатывать живое видео почти в реальном времени, что делает ее подходящей для технической поддержки и операционных задач.

В блоге на GitHub команда Qwen отметила: «Помимо статических изображений, Qwen2-VL расширяет свои возможности до анализа видеоконтента. Она может подводить итоги видео, отвечать на связанные вопросы и поддерживать разговоры в реальном времени, что позволяет ей выполнять функции персонального помощника, предоставляя инсайты непосредственно из видео.»

Обратите внимание, что Qwen-2VL может анализировать видео продолжительностью более 20 минут и отвечать на вопросы о их содержании.

Пример резюме видео:

В одном из демонстрационных видео Qwen2-VL эффективно подводила итоги обсуждения космонавтов о их миссии на борту космической станции, предоставляя зрителям увлекательный взгляд на исследование космоса.

Варианты моделей и опции с открытым исходным кодом

Qwen2-VL доступен в трех вариантах: Qwen2-VL-72B (72 миллиарда параметров), Qwen2-VL-7B и Qwen2-VL-2B. Версии 7B и 2B имеют открытый исходный код под лицензией Apache 2.0, что делает их интересными для предприятий. Эти варианты разработаны для конкурентоспособной производительности в доступном масштабе и доступны на платформах Hugging Face и ModelScope.

Однако самая большая модель 72B будет доступна позже по отдельной лицензии и API от Alibaba.

Функциональность и интеграция

Серия Qwen2-VL строится на модели Qwen и включает такие улучшения, как:

- Интеграция в устройства, такие как мобильные телефоны и роботы, для автоматизации на основе визуальных и текстовых вводов.

- Возможности вызова функций, которые позволяют взаимодействовать с сторонним программным обеспечением и приложениями, понимая критически важную информацию, такую как статусы рейсов и отслеживание посылок.

Эти функции делают Qwen2-VL мощным инструментом для задач, требующих сложного мышления и принятия решений.

Архитектурные инновации

Qwen2-VL включает несколько архитектурных усовершенствований для повышения качества обработки визуальных данных. Поддержка Naive Dynamic Resolution позволяет обрабатывать изображения с различными разрешениями, обеспечивая точность интерпретации визуальной информации. Система Multimodal Rotary Position Embedding (M-ROPE) позволяет модели эффективно интегрировать позиционные данные между текстом, изображениями и видео.

Будущие разработки команды Qwen

Команда Qwen нацелена на дальнейшее развитие моделей для работы с визуальными данными и языком, интегрируя дополнительные модальности и расширяя области применения своих моделей. Модели Qwen2-VL теперь доступны для разработчиков и исследователей, стремящихся изучить потенциал этих инновационных инструментов.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles