Alibaba представила Qwen2-VL — новую модель ИИ, способную анализировать видео продолжительностью более 20 минут.

Home Новости ИИ Alibaba представила Qwen2-VL — новую модель ИИ, способную анализировать видео продолжительностью более 20 минут.

Updated on август 29 2024

Alibaba Cloud, облачный сервис китайского гиганта электронной коммерции, представил Qwen2-VL — свою новую модель для работы с визуальными данными и языком, предназначенную для улучшения визуального восприятия, анализа видео и обработки многоязычного текста и изображений.

Qwen2-VL превосходит ведущие модели, такие как Llama 3.1 от Meta, GPT-4o от OpenAI, Claude 3 Haiku от Anthropic и Gemini-1.5 Flash от Google, согласно тестам третьих сторон. С ней можно ознакомиться на платформе Hugging Face.

Поддерживаемые языки: английский, китайский, большинство европейских языков, японский, корейский, арабский и вьетнамский.

Продвинутый анализ визуальных данных и видео

Alibaba стремится переопределить взаимодействие с визуальными данными с помощью Qwen-2VL. Эта модель может анализировать рукописный текст на нескольких языках, определять и описывать объекты на изображениях и обрабатывать живое видео почти в реальном времени, что делает ее подходящей для технической поддержки и операционных задач.

В блоге на GitHub команда Qwen отметила: «Помимо статических изображений, Qwen2-VL расширяет свои возможности до анализа видеоконтента. Она может подводить итоги видео, отвечать на связанные вопросы и поддерживать разговоры в реальном времени, что позволяет ей выполнять функции персонального помощника, предоставляя инсайты непосредственно из видео.»

Обратите внимание, что Qwen-2VL может анализировать видео продолжительностью более 20 минут и отвечать на вопросы о их содержании.

Пример резюме видео:

В одном из демонстрационных видео Qwen2-VL эффективно подводила итоги обсуждения космонавтов о их миссии на борту космической станции, предоставляя зрителям увлекательный взгляд на исследование космоса.

Варианты моделей и опции с открытым исходным кодом

Qwen2-VL доступен в трех вариантах: Qwen2-VL-72B (72 миллиарда параметров), Qwen2-VL-7B и Qwen2-VL-2B. Версии 7B и 2B имеют открытый исходный код под лицензией Apache 2.0, что делает их интересными для предприятий. Эти варианты разработаны для конкурентоспособной производительности в доступном масштабе и доступны на платформах Hugging Face и ModelScope.

Однако самая большая модель 72B будет доступна позже по отдельной лицензии и API от Alibaba.

Функциональность и интеграция

Серия Qwen2-VL строится на модели Qwen и включает такие улучшения, как:

- Интеграция в устройства, такие как мобильные телефоны и роботы, для автоматизации на основе визуальных и текстовых вводов.

- Возможности вызова функций, которые позволяют взаимодействовать с сторонним программным обеспечением и приложениями, понимая критически важную информацию, такую как статусы рейсов и отслеживание посылок.

Эти функции делают Qwen2-VL мощным инструментом для задач, требующих сложного мышления и принятия решений.

Архитектурные инновации

Qwen2-VL включает несколько архитектурных усовершенствований для повышения качества обработки визуальных данных. Поддержка Naive Dynamic Resolution позволяет обрабатывать изображения с различными разрешениями, обеспечивая точность интерпретации визуальной информации. Система Multimodal Rotary Position Embedding (M-ROPE) позволяет модели эффективно интегрировать позиционные данные между текстом, изображениями и видео.

Будущие разработки команды Qwen

Команда Qwen нацелена на дальнейшее развитие моделей для работы с визуальными данными и языком, интегрируя дополнительные модальности и расширяя области применения своих моделей. Модели Qwen2-VL теперь доступны для разработчиков и исследователей, стремящихся изучить потенциал этих инновационных инструментов.

Meta разжигает революцию в области открытого ИИ: загрузки Llama выросли в 10 раз по сравнению с прошлым годом.

Неутомимый Помощник: Как Агентный ИИ Революционизирует Команды Разработчиков ПО

Most people like

insMind

1.2M

Поднимите качество изображений ваших продуктов с нашим продвинутым AI-фоторедактором, специально разработанным для улучшения изображений. Превратите обычные фотографии в потрясающие визуалы, которые привлекут вашу аудиторию и повысят продажи. Откройте для себя мощь технологий AI для легкого улучшения четкости, цвета и деталей ваших изображений продуктов.

Редактирование фотографий с использованием ИИ AI Photo & Image Generator

Bland AI

480.7K

Bland AI использует возможности машинного обучения для автоматизации задач, что значительно повышает эффективность и продуктивность. Интегрируя современные AI-решения, организации могут оптимизировать свои операции и улучшить рабочие процессы.

ИИ AI Workflow Management

Spacely AI

126.5K

Откройте для себя Spacely AI – инновационную платформу для дизайна интерьеров, которая использует искусственный интеллект для предоставления персонализированных рекомендаций по дизайну, созданных специально для вас.

Искусственный интеллект в дизайне интерьеров AI Design Generator

AHelp

91.4K

Увеличьте свою эффективность в написании и достигните академического превосходства с помощью ИИ-инструментов.

Инструменты ИИ AI Detector

Find AI tools in YBX