Alibaba Cloud, облачный сервис китайского гиганта электронной коммерции, представил Qwen2-VL — свою новую модель для работы с визуальными данными и языком, предназначенную для улучшения визуального восприятия, анализа видео и обработки многоязычного текста и изображений.
Qwen2-VL превосходит ведущие модели, такие как Llama 3.1 от Meta, GPT-4o от OpenAI, Claude 3 Haiku от Anthropic и Gemini-1.5 Flash от Google, согласно тестам третьих сторон. С ней можно ознакомиться на платформе Hugging Face.
Поддерживаемые языки: английский, китайский, большинство европейских языков, японский, корейский, арабский и вьетнамский.
Продвинутый анализ визуальных данных и видео
Alibaba стремится переопределить взаимодействие с визуальными данными с помощью Qwen-2VL. Эта модель может анализировать рукописный текст на нескольких языках, определять и описывать объекты на изображениях и обрабатывать живое видео почти в реальном времени, что делает ее подходящей для технической поддержки и операционных задач.
В блоге на GitHub команда Qwen отметила: «Помимо статических изображений, Qwen2-VL расширяет свои возможности до анализа видеоконтента. Она может подводить итоги видео, отвечать на связанные вопросы и поддерживать разговоры в реальном времени, что позволяет ей выполнять функции персонального помощника, предоставляя инсайты непосредственно из видео.»
Обратите внимание, что Qwen-2VL может анализировать видео продолжительностью более 20 минут и отвечать на вопросы о их содержании.
Пример резюме видео:
В одном из демонстрационных видео Qwen2-VL эффективно подводила итоги обсуждения космонавтов о их миссии на борту космической станции, предоставляя зрителям увлекательный взгляд на исследование космоса.
Варианты моделей и опции с открытым исходным кодом
Qwen2-VL доступен в трех вариантах: Qwen2-VL-72B (72 миллиарда параметров), Qwen2-VL-7B и Qwen2-VL-2B. Версии 7B и 2B имеют открытый исходный код под лицензией Apache 2.0, что делает их интересными для предприятий. Эти варианты разработаны для конкурентоспособной производительности в доступном масштабе и доступны на платформах Hugging Face и ModelScope.
Однако самая большая модель 72B будет доступна позже по отдельной лицензии и API от Alibaba.
Функциональность и интеграция
Серия Qwen2-VL строится на модели Qwen и включает такие улучшения, как:
- Интеграция в устройства, такие как мобильные телефоны и роботы, для автоматизации на основе визуальных и текстовых вводов.
- Возможности вызова функций, которые позволяют взаимодействовать с сторонним программным обеспечением и приложениями, понимая критически важную информацию, такую как статусы рейсов и отслеживание посылок.
Эти функции делают Qwen2-VL мощным инструментом для задач, требующих сложного мышления и принятия решений.
Архитектурные инновации
Qwen2-VL включает несколько архитектурных усовершенствований для повышения качества обработки визуальных данных. Поддержка Naive Dynamic Resolution позволяет обрабатывать изображения с различными разрешениями, обеспечивая точность интерпретации визуальной информации. Система Multimodal Rotary Position Embedding (M-ROPE) позволяет модели эффективно интегрировать позиционные данные между текстом, изображениями и видео.
Будущие разработки команды Qwen
Команда Qwen нацелена на дальнейшее развитие моделей для работы с визуальными данными и языком, интегрируя дополнительные модальности и расширяя области применения своих моделей. Модели Qwen2-VL теперь доступны для разработчиков и исследователей, стремящихся изучить потенциал этих инновационных инструментов.