Alibaba dévoile Qwen2-VL : Le nouveau modèle d'IA capable d'analyser des vidéos de plus de 20 minutes.

Alibaba Cloud, la division de services cloud du géant chinois du e-commerce, a lancé Qwen2-VL, son dernier modèle de vision-langage conçu pour améliorer la compréhension visuelle, l’analyse vidéo et le traitement multilingue de texte-image.

Qwen2-VL surpasse des modèles de pointe tels que Llama 3.1 de Meta, GPT-4o d'OpenAI, Claude 3 Haiku d'Anthropic et Gemini-1.5 Flash de Google, selon des tests de référence tiers. Vous pouvez l'expérimenter sur Hugging Face.

Langues supportées : anglais, chinois, la plupart des langues européennes, japonais, coréen, arabe et vietnamien.

Analyse Visuelle et Vidéo Avancée

Alibaba vise à redéfinir l'interaction IA avec les données visuelles via Qwen-2VL. Ce modèle peut analyser l'écriture manuscrite en plusieurs langues, identifier et décrire des objets dans des images, et traiter des vidéos en temps quasi réel, le rendant adapté pour le support technique et les tâches opérationnelles en direct.

Dans un article de blog sur GitHub, l'équipe de recherche Qwen a souligné : « Au-delà des images statiques, Qwen2-VL étend ses capacités à l'analyse de contenu vidéo. Il peut résumer des vidéos, répondre à des questions connexes et maintenir des conversations en temps réel, ce qui lui permet d'agir comme un assistant personnel, fournissant des informations directement issues du contenu vidéo. »

À noter, Qwen-2VL peut analyser des vidéos de plus de 20 minutes et répondre à des questions sur leur contenu.

Résumé Vidéo Exemple :

Dans une démonstration, Qwen2-VL a efficacement résumé une vidéo où des astronautes discutaient de leur mission à l'intérieur d'une station spatiale, offrant aux spectateurs un aperçu captivant de l’exploration spatiale.

Variantes du Modèle et Options Open Source

Qwen2-VL se décline en trois variantes : Qwen2-VL-72B (72 milliards de paramètres), Qwen2-VL-7B et Qwen2-VL-2B. Les versions 7B et 2B sont open source sous licence Apache 2.0, offrant des options intéressantes pour les entreprises. Ces variantes sont conçues pour des performances compétitives à une échelle accessible et sont disponibles sur des plateformes telles que Hugging Face et ModelScope.

Cependant, le plus grand modèle, le 72B, sera disponible ultérieurement sous une licence distincte et une API d’Alibaba.

Fonctionnalités et Intégration

La série Qwen2-VL s’appuie sur la famille de modèles Qwen, avec des avancées telles que :

- Intégration dans des dispositifs comme les téléphones mobiles et les robots pour des opérations automatisées basées sur des entrées visuelles et textuelles.

- Des capacités d'appel de fonction permettant d'interagir avec des logiciels tiers et des applications, comprenant des informations critiques comme les statuts de vol et le suivi de colis.

Ces fonctionnalités positionnent Qwen2-VL comme un outil puissant pour des tâches nécessitant un raisonnement complexe et une prise de décision.

Innovations Architecturales

Qwen2-VL intègre plusieurs avancées architecturales pour améliorer le traitement des données visuelles. Le support de Résolution Dynamique Naïve permet de gérer des images de différentes résolutions, garantissant ainsi l'exactitude de l'interprétation visuelle. Le système d’Incrustation de Position Rotative Multimodale (M-ROPE) permet au modèle d’intégrer efficacement les informations de position à travers le texte, les images et les vidéos.

Développements Futurs de l'Équipe Qwen

L’équipe Qwen est dédiée à l’avancement des modèles vision-langage en intégrant des modalités supplémentaires et en améliorant les applications des modèles. Les modèles Qwen2-VL sont désormais disponibles pour les développeurs et chercheurs souhaitant explorer le potentiel de ces outils de pointe.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles