Alibaba представила Qwen2-VL — новую модель ИИ, способную анализировать видео продолжительностью более 20 минут.

Home Новости ИИ Alibaba представила Qwen2-VL — новую модель ИИ, способную анализировать видео продолжительностью более 20 минут.

Updated on август 29 2024

Alibaba Cloud, облачный сервис китайского гиганта электронной коммерции, представил Qwen2-VL — свою новую модель для работы с визуальными данными и языком, предназначенную для улучшения визуального восприятия, анализа видео и обработки многоязычного текста и изображений.

Qwen2-VL превосходит ведущие модели, такие как Llama 3.1 от Meta, GPT-4o от OpenAI, Claude 3 Haiku от Anthropic и Gemini-1.5 Flash от Google, согласно тестам третьих сторон. С ней можно ознакомиться на платформе Hugging Face.

Поддерживаемые языки: английский, китайский, большинство европейских языков, японский, корейский, арабский и вьетнамский.

Продвинутый анализ визуальных данных и видео

Alibaba стремится переопределить взаимодействие с визуальными данными с помощью Qwen-2VL. Эта модель может анализировать рукописный текст на нескольких языках, определять и описывать объекты на изображениях и обрабатывать живое видео почти в реальном времени, что делает ее подходящей для технической поддержки и операционных задач.

В блоге на GitHub команда Qwen отметила: «Помимо статических изображений, Qwen2-VL расширяет свои возможности до анализа видеоконтента. Она может подводить итоги видео, отвечать на связанные вопросы и поддерживать разговоры в реальном времени, что позволяет ей выполнять функции персонального помощника, предоставляя инсайты непосредственно из видео.»

Обратите внимание, что Qwen-2VL может анализировать видео продолжительностью более 20 минут и отвечать на вопросы о их содержании.

Пример резюме видео:

В одном из демонстрационных видео Qwen2-VL эффективно подводила итоги обсуждения космонавтов о их миссии на борту космической станции, предоставляя зрителям увлекательный взгляд на исследование космоса.

Варианты моделей и опции с открытым исходным кодом

Qwen2-VL доступен в трех вариантах: Qwen2-VL-72B (72 миллиарда параметров), Qwen2-VL-7B и Qwen2-VL-2B. Версии 7B и 2B имеют открытый исходный код под лицензией Apache 2.0, что делает их интересными для предприятий. Эти варианты разработаны для конкурентоспособной производительности в доступном масштабе и доступны на платформах Hugging Face и ModelScope.

Однако самая большая модель 72B будет доступна позже по отдельной лицензии и API от Alibaba.

Функциональность и интеграция

Серия Qwen2-VL строится на модели Qwen и включает такие улучшения, как:

- Интеграция в устройства, такие как мобильные телефоны и роботы, для автоматизации на основе визуальных и текстовых вводов.

- Возможности вызова функций, которые позволяют взаимодействовать с сторонним программным обеспечением и приложениями, понимая критически важную информацию, такую как статусы рейсов и отслеживание посылок.

Эти функции делают Qwen2-VL мощным инструментом для задач, требующих сложного мышления и принятия решений.

Архитектурные инновации

Qwen2-VL включает несколько архитектурных усовершенствований для повышения качества обработки визуальных данных. Поддержка Naive Dynamic Resolution позволяет обрабатывать изображения с различными разрешениями, обеспечивая точность интерпретации визуальной информации. Система Multimodal Rotary Position Embedding (M-ROPE) позволяет модели эффективно интегрировать позиционные данные между текстом, изображениями и видео.

Будущие разработки команды Qwen

Команда Qwen нацелена на дальнейшее развитие моделей для работы с визуальными данными и языком, интегрируя дополнительные модальности и расширяя области применения своих моделей. Модели Qwen2-VL теперь доступны для разработчиков и исследователей, стремящихся изучить потенциал этих инновационных инструментов.

Meta разжигает революцию в области открытого ИИ: загрузки Llama выросли в 10 раз по сравнению с прошлым годом.

Неутомимый Помощник: Как Агентный ИИ Революционизирует Команды Разработчиков ПО

Most people like

MagicSlides

617.2K

MagicSlides использует возможности искусственного интеллекта для создания потрясающих слайдов презентаций из любого текстового ввода. Превратите свои идеи в захватывающие визуальные презентации без усилий!

программное обеспечение для презентаций AI Presentation Generator

Denvr Dataworks

Denvr Dataworks специализируется на предоставлении надежных облачных и инфраструктурных решений, адаптированных для искусственного интеллекта (ИИ), машинного обучения (МО), высокопроизводительных вычислений (ВПВ) и различных вычислительных приложений.

высокопроизводительное облако Other

Video Analytics powered by AI - Ipsotek Ltd

35.6K

Представляем ведущего поставщика решений по аналитике видео на основе искусственного интеллекта, который стремится преобразовать визуальные данные в действенные инсайты. Наша инновационная технология использует передовые алгоритмы для повышения безопасности, оптимизации операций и принятия обоснованных решений. Присоединяйтесь к нам в переосмыслении того, как компании используют видеоданные для повышения эффективности и безопасности в современном динамичном окружении.

Аналитика видео с использованием ИИ Other

SONOTELLER.AI

132.7K

Углубите своё понимание музыки и оптимизируйте организацию с нашим полным руководством. Откройте для себя эффективные техники, которые не только прояснят ваш музыкальный опыт, но и помогут эффективно управлять вашей музыкальной коллекцией. Независимо от того, являетесь ли вы начинающим музыкантом или заядлым слушателем, овладение этими стратегиями преобразит ваш подход к музыке и удовольствие от неё.

анализ песни Other

Find AI tools in YBX